英文分詞在線詞頻統計工具
身為世界第一大語言的英語,涉及到的領域及其廣泛,所以一直有小伙伴向我們反饋,微詞云上線一款英文分詞詞頻統計工具吧;
為了響應這些不辭辛苦反饋的小伙伴們,我們終于上線了一款英文分詞在線詞頻統計工具
今天就與大家嘮叨嘮叨微詞云第一版“英文分詞工具”上線了哪些不得了的功能
我就從文本導入——分詞篩詞——報告分析三大塊進行講解
工具位置
1)文字描述位置:首先英文詞頻統計工具在首頁的頂部在線分詞位置處
2)具體在線英文分詞鏈接地址:http://www.nickielson.com/fcfenci/
接下來按照上面提供的思路開始介紹微詞云在線英文分詞工具的功能以及使用方法
功能模塊1:文本導入
導入格式:
目前微詞云英文分詞編輯器支持txt/Excel/和文本復制導入方式
配置參數說明:
這里主要介紹導入文本后的配置參數,估計初次使用英文分詞編輯器會有很多犯迷糊的地方
1)抽取詞干:
詞干提取是去除單詞的前后綴得到詞根的過程。如大家常見的前后詞綴有「名詞的復數」、「進行式」、「過去分詞」…
那么抽取詞干的好處就是,會把各種形態下的單詞會統一到一起,例如like/likes;go/went/goes/gone 通過抽取詞干都會把變形的單詞統一為一個詞
2)單詞提取量:
例如前500個詞,按照500Kb的文本提起前500個高頻詞,如果你有1M的文本,提取前1000個關鍵詞
如果不想放過任何的低頻詞,想提取最大量的單詞,你可以選擇返回所有,但這個功能是會員專享功能了
3)計算單詞相關性:
單詞間的強弱關系,如多詞之間的共現網絡關系圖,某個高頻詞與其他詞之間的共現次數等,這是在第三步得到報告時需要用到的功能,也是會員功能
4)指定詞性:
不被指定的詞性,直接是被過濾掉的,如果,有些詞性不想被過濾掉,需要在這里勾選上
先導入需要分詞的文本,在根據需求匹配適合的配置參數,最后點擊頂部的【下一步】
功能模塊2:英文文本分詞與篩詞
這里里主要通過詞性和詞頻數、以及搜索單詞、也可以在右側大的面板中篩詞,共四種形式進行篩選
詞性篩詞:
我們可以通過左側的詞性列表進行篩選關心的關鍵詞,勾選對勾的算是保留的單詞,未勾選的單詞是被過濾不要的單詞
詞頻數篩詞:
在左側底部的位置,有個“忽略詞頻小于多少的單詞”的功能,輸入你想過濾掉的詞頻數,輸入數值后,記得點擊提交按鈕。
精準搜索單詞篩詞:
在右上角有個「搜索單詞」按鈕,在這里進行輸入關心的單詞,最后點擊查詢就能執行命令啦
右側關鍵詞面板中篩詞:
這種篩詞的特點是,詞頻從高到低的依次進行展示,也可以作為最后篩詞的最后一步,確認保留與忽略的關鍵詞面板
好了,以上是我們篩詞的介紹,保留的詞已經確定好后,我們開始進入生成報告這一步,點擊右側底部的「確定使用所選單詞,并生成報告」
有些小伙伴,只是想下載分詞結果,那么你可以在這里點擊右側頂部的「下載分詞結果」;如果發現英文分詞結果中有未知的詞性,可以點擊頂部的「關于英文詞性」
功能模塊3:得到分析報告
先說個題外話,有些小伙伴,咋一看,很多單詞是不全的,way被變成wai(way ways),這是因為采取了抽取詞干導致的,抽取詞干的好處是,不同時態的同個詞詞頻數合并在一起
例如way詞頻數是20 ways詞頻數是38 wai的詞頻數就是58
如果想取消這個功能,你可以在導入內容時,取消抽取詞干功能(在頂部上進行配置,第一步也有具體描述)
好了說回來,報告分析中主要包含幾塊功能
統計信息:
你導入的文本基礎信息,如文本大小、字數、分詞總數量、篩詞總數、選擇單詞數、低頻詞被忽略的數量。
保留單詞的詞性占比餅狀圖
單詞列表:
詞干、單詞、詞性、詞頻
高頻詞詞云圖
主要展示前200個高頻詞,您還可以點擊頂部的美化詞云進行設計詞云圖,若想生成更多關鍵詞詞云圖,可以下載分詞結果,導入到「創建詞云」中
查看單詞相關性:
詞性中單詞數量的占比數值
點擊任意關心的單詞,就能進入到相關頁面
下載單詞所在的句子所有數據
例如包好time所有的句子都有哪些數據,你可以通過這個功能,可以看到所有包含time的數據內容
社會網絡關系圖(top30單詞關系圖)
其實就是多個關鍵詞相互之間的共現關系,并生成的關系網絡圖而已,如果你的頁面沒有關系線條,證明您沒有在導入內容處勾選,相關性計算
像定制的社會網絡關系圖還能制作成這樣的效果
詞性高頻詞柱狀圖
詞性分類下的高頻詞可視化
結尾
介紹到這里,大家應該知道這個版本到底有哪些功能,其實也不難看出,第三步的得到報告這一步非常重要,如果希望得出關鍵詞相關性,需要在導入單詞時勾選「相關性計算」,希望小伙伴利用英文分詞工具大大提高工作上的效率,輔助作出漂亮的分析報告來,
最后,還希望能得到你體驗的反饋,幫助我們一起完善英文分詞吧。