中文分詞詞頻統計與分析指南【全版】
詞頻統計與分析簡單三步即可
- 上傳文本數據
- 詞頻詞性篩詞
- 生成文本分析數據與可視化
那么接下來我會對每個步驟詳細的解說,在這里您可以找到所有問題的答案,最全的詞頻統計與分析使用教程了!
01.
如何導入文本
這一步我們主要“導入文本數據”與進行基礎的“數據過濾”配置以及“導入詞典”,讓分詞結果更有意義更精準。
1、文本導入格式與方法
打開在線分詞地址:中文分詞統計分析
點擊左側頂部的「從文本中導入內容」就可以了
這里支持excel和txt兩種導入格式,也支持文本內容復制粘貼導入方法
我們更推薦txt純文本導入方式
1)導入文本支持大小
每次最大支持10Mtxt純文本導入,大概1千萬字節,大概500萬中文。
每次免費用戶最大支持1M純文本導入,大概1百萬字節,大概50萬中文。
超標的文本詞頻統計,可找我們的客服小姐姐“文本定制”,會員用戶還有贈送。
2)導入的txt文本出現亂碼怎么辦?
一般這種情況的發生,可能在格式轉換過程出現的問題,在這里你可以使用這個亂碼轉換器來處理這個問題
亂碼轉換器體驗地址
操作步驟
- 選擇文本
- 點擊左側“復制”或者點擊“導出UTF-8文件”
2、文本過濾與配置
文本上傳成功后,請留步,看下這里的文本過濾和配置功能吧,對接下來的文本分詞篩詞絕對有影響。
主要影響單詞分詞長度、詞頻量、分詞量和分詞結果顯示等數據。
1)計算單詞相關性
解釋: 是一種共詞分析方法,研究分析關鍵詞之間的親疏遠近關系,還支持查看單詞所在數據的位置。
影響: 勾選了計算單詞相關性,您可以查看和下載Top20共詞網絡關系圖、單詞之間的共詞數據、關系詞云圖
所在位置: 在頂部的左側位置
注意: 計算單詞相關性是會員功能。
2)單詞長度篩選
如果你只想保留單詞長度為2及以上的,那么“單詞長度”就是輸入2就可,如果還想保留單詞長度為1及以上的,可以輸入1就行
其他的單詞長度配置同理。
所在位置:在頂部的便左位置
3)詞頻數過濾
如果您想過濾低頻詞,那么“詞頻”框就輸入對應的數值就行,例如只保留詞頻大于10的高頻詞,那么數值就輸入10就行了
所在位置:在頂部的中間位置
4)單詞提取量最大與最小
如果您想盡可能的保留文本的所有分詞結果,那么您就配置選擇返回所有單詞
如果您只想保留高頻詞那么提取前500個詞就夠了
注意:單詞提取量只有前200和500是免費的,其他的配置是會員功能。
5)分出關心詞與自定義詞典
我們經常遇到,分詞結果被分開的現象,例如新時代,被分成新和時代兩個詞了,那么自定義詞典就是解決用戶“想分出來的詞”系統卻“沒有給分來”的問題。
那么您可以在自定義詞典中輸入或者導入您已經準備好的詞典詞就行了。
注意: 自定義詞典免費用戶可體驗前5個詞。
6)進入詞頻統計頁面
點擊左側【下一步】我們就可以進入到詞頻統計篩詞頁面,內容導入與配置就完成了。
02.
詞頻詞性篩詞
這一步非常關鍵,是生成報告數據與可視化重要的一步。主要就是選詞。
左側是詞性詞頻表,右側是詞頻從高到低的詞頻表,左側底部是詞頻過濾表。
1、詞性篩詞
我們可以點擊關心的詞性,進行單獨的篩選單詞,也可以勾選關心的詞性,全部選擇該詞性下的所有詞頻
希望選擇所有詞頻:點擊詞性列表上面的「選擇所有」就行了,只要把所有詞性都勾選了,所有詞頻就會勾選。
但是單詞量很大時,生成報告會很卡,特別是查看相關性時,大家可以額外注意下。
2、詞頻篩詞
右側是有詞頻高到低展示關鍵詞,此處是讓大家看下哪些關鍵詞被選中了,同時也是大家粗略篩選和過濾一些自己不需要的詞
3、搜索關心詞篩詞
右上角有個搜索框,可以輸入自己關心的詞,迷糊查詢,會查詢到所有包含這個詞的所有關鍵詞
可以點擊勾選需要的詞
并且可以點擊下載關心詞的詞頻表
4、詞頻數過濾
左下角有個詞頻數過濾功能,可以輸入過濾的詞頻數,并點擊提交即可。
5、下載詞頻統計結果
在頂部的右側上面會有「下載分詞結果」
最好提前下載詞頻統計結果數據,因為不同的電腦性能,可能會在第三步生成報告時存在卡頓現象,以防數據丟失
03.
生成文本分析數據與可視化
1、數據報告頁面必知道的幾個隱藏功能
1)下載功能圖標
頁面上箭頭向下的圖標都是下載功能按鈕,可以在對應的可視化和數據頁面中進行點擊下載即可
2)編輯功能圖標
三條橫杠的圖標是此處可視化圖可進行編輯的意思,并且點擊這個圖標就會彈出配置的功能
3)如何查看單詞相關性
點擊報告中任意詞頻關鍵詞都可以進入到單詞相關性頁面
4)詞性與詞頻如何創建更多詞云圖
很多的詞頻表和詞云圖旁都有「創建詞云圖」的文字提示,點擊它會進入到詞云圖編輯器中,可以生成更多亮眼的詞云圖哦!
關于詞云圖設計可參考詞云圖生成指
2、文本統計信息
- 文本大?。阂詔xt為準的純文本大小
- 字數:文本的內容字數總量
- 分詞單詞總數:文本分詞詞頻統計后不重復的單詞總量
- 篩詞總數:分詞后被保留下來的單詞量
- 選擇單詞數:勾選單詞總量
3、詞性占比
解釋: 也就是說詞性之間的單詞量之比
下載可視化:這里直接可以點擊右側頂部的下載按鈕下載可視化效果圖
隱藏不關心的詞性:點擊頂部詞性顏色柱,就可取消餅狀圖對應的詞性占比
4、單詞相關性查看
解釋: 是對一個詞與其他詞統計他們在同句子中出現的次數,以此對這些詞作基礎的共現分析,從而反映出現這些詞之間的親疏,遠近關系。
備注:單詞相關性的分析是會員功能,免費用戶可查看基礎的報告展示。
1)查看一個和多個單詞相關性
查看方法: 點擊右側詞頻列表中的任意高頻詞就能進入到單詞相關性頁面;報告中任意能點擊的單詞位置都可以進入到單詞相關性頁面
下載詞云圖: 可點擊右側下載按鈕,下載詞云圖
導出詞頻表: 點擊右側頂部的導出按鈕,可導出詞頻表
可查看最多三層關系: 我們可查看三個詞之間共同出現的詞頻表和數據所在的位置相關性數據
2)單詞“所在文本數據的位置”數據下載
在相關性頁面位置,我們會看到左側列表是單詞在數據中的位置,那么我們點擊左側頂部的下載按鈕,就可以成功下載數據了
這里的數據可幫助用戶分析單詞具體放入語境以及深度的關系分析。
5、詞頻表
在最左側的列表是詞頻表,我們下載詞頻表,也可以點擊查看單詞相關性
創建詞云圖: 可點擊右側頂部的「創建詞云圖」進入到詞云圖編輯器,可生成更多樣式的詞云圖
如果想生成更多關鍵詞的詞頻圖:點擊右側頂部的詞頻表的「創建詞云圖」,選擇「使用所有單詞」
6、高頻詞云圖
在報告中見位置,就會看到高頻詞云圖,鼠標移動到單詞身上就會顯示詞頻數值,單詞顯示越大,表示詞頻越大
7、共詞網絡關系圖
1)解釋
共詞分析(Co-word Analysis)是一種較新的文獻計量學方法,其屬于內容分析方法的一種。
2)原理
是對一-組詞兩兩統計它們在同一篇文獻中出現的次數,以此為基礎對這些詞進行共現分析,從而反映出這些詞之間的“親疏”關系,進而分析這些詞所代表的學科或主題的結構與變化。
3)可視化關系解讀
- 節點邊框越大,表明該詞影響程度越大
- 鼠標移動到某個詞位置處,可顯示該詞與哪些詞關系連線,以及該詞的詞頻
- 鼠標移動到兩個詞的連線位置,顯示的數值代表兩兩詞共同出現的次數
- 共同出現的次數越大,可以反應他們之間的親密關系。
5)生成
如果分析的文本較大時,不會主動顯示,可點擊「顯示關系圖」
因為網絡關系圖是遍歷算法,所以關系網絡會很多,計算會存在卡頓的現象,請耐心等待。
6)選詞
在右側的功能按鈕位置,可以刪除和增加關系的詞,進行生成關系網絡圖,建議詞不要太多,渲染關系圖時會卡頓
刪除詞:取消勾選當前頁面的詞就行
增加詞:在搜索框中輸入關心的詞,并點擊「查找」按鈕,點擊查找到的詞后,即可添加成功。
確定關鍵詞后,點擊右側「確定」按鈕
7)美化共詞網絡關系圖
具體說下如何美化下網絡關系圖,讓線條和關系網絡更清晰,我們可以修改主題、布局配置、改變顏色等。
步驟1: 點擊左側的“選擇主題”按鈕
步驟2: 選擇主題模版樣式,一個是引力布局,一個是環形布局
步驟3: 修改配置布局
(1)加權次數,可控制關系圈的顯示大小,若關鍵詞沒有交叉或者顯示大小大的離譜的情況,可不考慮改變
(2)關系圈的最小尺寸,就是最小圈的顯示大小的意思,如果沒有使用加權值,可能無效。
(3)邊的曲度,就是關系線的展示的樣式而已,都可以點擊試試看,一般默認“正?!?br>
(4)排斥力:如果使用的是環形主題,排斥力無效,近適合“引力布局”主題
(5)距離:就是關鍵詞之間的距離值
(6)節點形狀:就是關鍵詞外部輪廓形狀
步驟4: 自定義顏色
(1)節點顏色:關鍵詞外部輪廓的背景色
(2)節點邊框顏色:就是關鍵詞外部輪廓線的顏色
(3)節點的【文本顏色】:就是關鍵詞的顏色
(4)【連接線】的顏色:網絡關系線的顏色
備注: 如果我們使用的主題是引力布局,我個人覺得邊的曲度為“無”時,效果比較好看,并且有3D立體感
8、詞性高頻詞柱狀圖
詞性柱狀圖可視化我們增加了修改配置功能,如增加和刪除不想展示的詞,以及修改柱狀顏色,和正序還是倒序展示效果等配置功能
1)如何修改詞性柱狀圖展示的關鍵詞?
這里的功能可以解決“詞性分類不精準”問題,和剔除不關心的詞,人工的修正數據,讓展示結果更準確。
取消關鍵詞: 點擊詞性柱狀圖的右側的「編輯圖標」,可以取消勾選某個關鍵詞
增加關鍵詞: 點擊詞性柱狀圖的右側的「編輯圖標」,把關心的詞輸入到文本框中點擊查找。
2)如何修改柱狀圖展示顏色
- 點擊詞性柱狀圖的右側的「編輯圖標」,我們就會看到顏色修改,
- 最右側中間的顏色框是可以自定義選擇顏色值的功能
- 選擇好顏色后,記得點擊右側底部的「確定」就行
3)如何修改柱正序還是倒序的狀態
- 點擊詞性柱狀圖的右側的「編輯圖標」,我們就會看到兩個選擇展示序列的方式按鈕
- 點擊正序或倒序
- 記得點擊右側底部的「確定」就行
4)創建詞性詞頻詞云圖
- 在每次詞性詞頻柱狀圖頂部都會看到「創建詞云圖」的文字提示
- 點擊它就可以進入到詞云圖生成器頁面
- 關于詞云圖設計可參考詞云圖生成指南
5)下載詞性柱狀圖可視化
在每次詞性詞頻柱狀圖頂部都會看到下載的圖標,點擊下載圖標即可下載