英文版LDA主題分析在線工具,不只有主題數分析還有主題情感分析!
大家好,這次給大家分享如何高效使用英文版的主題分析工具
總體思路
從以下幾個方面來說明
1、首先是主題分析前的準備工作
2、其次是主題數確定
3、最終是如何生成一個滿意的主題分析報告
想看【視頻教程】的小伙伴,點擊這個B站教程
使用到的工具
1、英文分析工具:https://fenci.weiciyun.com/english/
2、英文困惑度工具:https://fenci.weiciyun.com/english/lda/topics/
3、英文主題分析工具:https://fenci.weiciyun.com/english/topic/
4、去重工具:https://tools.weiciyun.com/text/quchong/
操作教程
第一步:準備文本和清洗數據
需要準備好要分析的文本,建議大家提前清洗下數據,如去蟲、去掉沒必要的臟數據
第二步:下載任務文件
需要準備好做主題分析時的文件,這一步我們需要借助英文分析工具進行關鍵詞提取和情感詞提取等
這一步非常關鍵,因為直接影響主題分析效果,具體下面我會說明的
先打開英文分析工具
英文分析工具地址:https://fenci.weiciyun.com/english/
我們先上傳準備好的源數據文本,如果希望在主題分析時有主題情感分析結果,需要勾選頂部的主題分析配置,記得點擊下一步按鈕,生成報告結果
那么我們先初步看下報告效果,如果提取的詞比較好,我們可以直接下載左側頂部這個的“下載任務文件”,主題分析主要就識別這個文件
獲得更多的詞組
英文分析報告中提取的很多詞是單詞,而不是詞組,那么我們可以挖掘出更多詞組,通過自定義詞組來提取出更多有價值的詞,接下來我就來演示下如何操作
在報告中,首先我們可以先下載名詞短語
其次,還可以選擇出現次數比較多的名詞、形容詞、動詞等重要的詞,點擊這些詞,查看報告的詞序分析結果,詞序表是根據單詞的左右臨詞進行抽取的關鍵詞組,我們可以下載這些詞序結果數據
按照我這個操作,再下載其他的有價值的詞的詞序結果就行
重新再分析
最終我們從這些數據中挑選有價值的詞組,這里就不做演示了
我們先返回英文分析的上一步輸入內容那里,把挑選好的詞組,放在自定義詞組里,再重新分析下結果
好了,接下來我們還可以過濾一些沒必要的詞性,如限定詞、標點符號、連詞等
最終分析好結果后,我們再次下載任務文件就可以了
第三步:主題數確定
接下來說下如何確定主題數,已經確定好主題數量的,可以忽略這一步
先打開英文的困惑度分析工具
LDA困惑度工具:https://fenci.weiciyun.com/english/lda/topics/
把下載好的任務文件導入即可
一般得分比較低的主題數比較好,但不同行業的數據略有不同。
當然大家還可以利用一致性分析方法來衡量主題數。
當主題數得分不理想時,可適當調高一些alpha和beta值,反復分析幾次找到一個不錯的數值即可
假設發現有兩個主題分數很接近時,不知道選擇哪個比較好時,你可以在做主題分析時,看下主題分析效果來決定要選擇哪個主題數
但一定要記住你認為那個比較好主題數的alpha和beta值,因為在主題分析時會用到
第四步:生成LDA主題分析報告
然后我們可以生成主題分析報告了
先打開英文主題分析工具
工具地址:https://fenci.weiciyun.com/english/lda/topic/
然后仍是需要上傳我們的下載任務文件wcyeng
參數配置
點擊LDA自動分類,輸入上一步時得到的主題數值,如果上一步有更改alpha和beta值,需要與上一步的數值保持一致
上面的一些參數可以稍微看下,如果有需要移除的詞,和需要額外保留的詞可以在這里配置
采用的名詞短語這塊和詞性篩選,可根據需要調整或保持不變
最重要的是,需要文本中匹配的單詞情況,看是否滿意,不滿意需要重復第二步,重新做分析
生成報告
以上都沒問題,我們就點擊開始分析主題
可下載分析結果以免數據丟失
這里的主題名字都是各個主題得分最高的詞,大家可以根據分析需要修改的
這一步沒有問題,再點擊開始分析,進入正式的主題分析報告中
如何快速看懂主題報告中的分析表呢,可以在問題搜索框中搜索“主題分析表”,直接點擊查看解釋說明
有主題統計表、詞占比、主題分布、主題詞表、主題得分等相關的分析表
重點來說下關于主題分析里面的情感分析部分
例如我點擊任意主題名,我們可以查看每個主題的情感統計情況
在主題詞列表位置,還可以查看每個詞的情感占比情況
往下滑動還可以看到主題情感占比柱狀圖,和情緒與數量分布情況
以及具體的情感正負面詞云圖、情感分析結果表,可以查看每個主題詞下對應的條數據情感打分與情感傾向判斷結果等
對情感圖表不理解的,可以搜情感分析表,對照解說去理解即可
在說下關于主題下的網絡關系圖,這里的詞都可以修改的,系統默認選取一些高頻的名詞,不一定具有更緊密的研究價值,可點擊“自定義詞”進行修改,上面也有顯示篩選的條件,如主題類型、詞性等也可以直接搜索單詞查找
對這里的可視化不滿意,可在這里下載矩陣表,自己利用其他繪圖工具來生成也是沒問題的
可視化效果不滿意還可以進行配置優化,可在搜索框搜索相關教程
并且報告里的大部分單詞都支持點擊查看具體的報告結果,隨機點擊一個詞演示下
可以看到情感分析情況、共現分析的圖表結果、詞序分析等
絮絮叨叨說了這么多,主要還是希望能讓大家快速上手,快速生成自己想要的報告結果,大大降低做分析圖表的難度,省時間做更多價值較高的分析總結的事情