2014年6月7日 星期六

[R] TEXT MINING(文字探勘、文本分析練習)

        BIG DATA時代要說跟一般資料庫分析有什麼不一樣的地方,除了更多資料外,就是更多對於非結構化資料的蒐集了。網路媒體有別於傳統媒體,每個使用者都可以製造、生產訊息,網路上的訊息量比美國國會圖書館還多了N^N倍,這些資料都不是整理好的資料,甚至大多不是是數值資料,為了蒐集並且分析這些資料,TEXT MINING(文字探勘)成了近幾年的主流。

      一般文字探勘軟體都很貴...而且不支援中文文字探勘,因此在華人世界,R成為文字探勘者最主要的工具(畢竟免費),而且有大神在開發中文文字探勘R套件,讓R成為中文文字探勘神器。

        這次遇到的問題很單純,公司有自己的POS系統,POS系統裡面有一欄開放欄位,供門市人員填入一些客戶的狀況和資料,因為各種狀況都打在同一個文字欄位內,要一一瀏覽分析根本是不可能的任務,只好動用文字探勘。

原始資料結構大概長這樣(為範例資料,非真實資料)
客戶代號       備註
001                狗1歲 貓2歲
002                貓3歲  烏龜3年

這次的分析內容100%不是原創,直接引用嘉葳大大的程式碼用R進行中文 text Mining ,再做一點小修改而已



寫完自己覺得好沒價值的一篇文章...根本沒原創性...不過這個套件用起好像也就是這樣了XDD 因為很複雜就只能照著模組走。之後如果再用到這個套件會再和大家分享心得。

如果您喜歡R的應用可以參考:
[R] 推薦系統實作(User Base)
[R] 推薦系統實作(Item Base)
[R] 到底還有什麼可以吃!!!???以社會網絡分析(Social Network Analysis)觀察地溝油事件
[R] PTT推文文化的社群網絡分析(Social Network Analysis),帶你一窺社群網絡中的互動情況

如果您喜歡Text Mining相關文章可以參考:
[R] tm package version 0.6 大解析(text mining文字探勘套件)
[Python] 自製N-Gram Analyst 文字探勘(text mining)軟體1.01a release
[Python] 土砲N-GRAM(文字探勘、文本分析工具)演算法大升級! 加入長詞優先法與斷句系統


圖片來源:http://searchuserinterfaces.com/book/sui_ch11_text_analysis_visualization.html