如何建立語料庫?自己行業詞庫建立呢?
在內容文本分析中,離不開語料庫的建立,沒有一款軟件,可以包含各行各業的詞庫的,所以分析者,如何自己建立詞庫成了非常重要的工作
也是大大提升文本分析質量的方法!
刷到這篇文章的你,肯定知道新詞挖掘價值的,我就不再過多闡述了
我會從以下幾個角度來講,如何建立語料庫!
單個字詞頻統計
單個字的統計可以幫我統計出高頻出現的詞,為接下來的新詞挖掘時挖掘這次字所有周邊的詞作準備
例如我這次分析的是餐飲米飯類的文本
在口感里,硬這個單個字具有很重要的意義
在味道這里,香和甜也非常重要的
那么香組合的新詞有很大可能也是我們想要的詞
我們如何做單個字的統計?
網上有不少單子詞頻統計,但支持的文本太少,文本過大就容易卡死
所以我教大家一個正則方法,很快就統計好
我們打開微詞云中的文本切分工具
這里有提供正則命令,正好符合我們本次需求
導入文本后,右側類型選擇正則
輸入英文的“|”這個符號,點擊開始切分就行
下載excel表,可以篩選一些價值單字
對文本進行詞頻統計
行業詞的建立第一步總離不開對文本的分詞詞頻統計
因為可以找出高頻詞和行業特有的短詞、相關詞等
還可以大體對詞進行分類
那么我們將會用到微詞云中的中文通用分析軟件來處理文本并進行分詞與詞頻統計
我們直接看特征詞表位置,這里有我們最想要的數據,可以根據詞性來選擇需要的詞
如可根據名詞或者名動詞來確定文本關鍵詞主題分類
我根據一些名詞關鍵信息就可以把關鍵詞分為口感、味道、份量、價格等
當然你也可以不用為詞作分類
我們還可以查一些動詞、形容詞和副詞,可以為接下來挖掘情感詞作準備
我們可以下載特征詞表,慢慢篩選這些具有代表性的詞
我的分類表和分類下的一些詞,大家可以參考下,有單個字的,也有兩個字的詞
文本新詞挖掘
上面兩步都是為接下來這一步做好了鋪墊
打開微詞云中的新詞挖掘工具
首先我們把文本導入進來,重點來說下指定單詞這個配置
輸入自己關心的詞,系統會額外關照你輸入的詞的組合詞挖掘
最好輸入的單詞長度不超過2個字的
好了這里我們就可以輸入我們上面挖掘好的詞了,例如我們挖掘的單個字的口感的詞看看
在單詞列表位置,找下詞性為自定義詞的單詞,都是你指定的詞了
打開看看,并下載數據表
當然,我們也應該下載新詞列表下的詞表,但不如我指定單詞挖掘的精準,有很多我們可能不關心的詞在里面。
下載好的分類詞最好放在不同的文件中方便查找
這是我選擇了一些的新詞結果表,大家可以參考下
我們可以反復使用新詞挖掘工具幫我發現不同分類下的新詞
如何選新詞結果?
關于如何選新詞結果,我簡單說下
第一我按照詞頻數高低來選詞
第二把詞頻低于3的過濾掉
第三我會把長度超過4及以上的詞過濾掉
我一般用正則命令來篩選,因為比較快并且很靈活
感興趣的朋友可以搜索下關于正則篩選數據的常見命令,我用的是sublime軟件進行執行的正則
如單詞長度匹配的正則命令是:^.{1,20}$,想篩選多長的單詞就更改第一個數字和第二個就行
如何快速去掉重復單詞?
這里推薦下微詞云的去重工具,批量去掉重復的單詞,增加額外的工作量
我一般把一類的新詞挖掘結果都放在一個表里,但是未免會有不少重復的詞,就用上面的去重工具處理下就行
統計文本短句關鍵詞
特別適合評論數據,有很多有價值的短句的,而這種短句不適合做分詞處理?
那么應該怎么辦呢?
這里教給你一個超級簡單的方法
點擊頂部其他產品中,把詞云設計打開,借用這里的簡單導入,幫我統計下這些關鍵詞
這里稍微配置下數據,防止過濾,然后下載統計好的數據就行了
接下來我們要稍微自己過濾下數據就行了
例如去掉單個字的詞,優先選擇2個字長度的詞
詞頻數小于3的詞也過濾掉
這里的詞很多適合做情感詞使用
以上是挖掘新詞,輔助我們建立行業語料庫的大題思路,最后建議大家最好把關鍵詞分好類
有行業特定詞庫、有情感詞庫、有主題詞庫等,方便我們日后的情感分析、主題分析使用
相關文章推薦
1、產品經理私藏的“微詞云中文分析工具使用技巧”,學會了免壓9款文本分析工具
2、這種熱詞云圖怎么生成?3分鐘教你生成一張高科技詞云圖!
3、寫論文時超實用的10大網站,畢業論文有救了!
4、1款強大的主題分析軟件,文科學妹也能秒上手!