文本挖掘分析了“3年養老政策“文本,報告比對分析結果出于意料!
人終有一老,隨著人均預期壽命延長、老年人口增加,人口老齡化正在深刻而廣泛地影響我國經濟社會發展的各個領域和層面,誰都希望自己老有所依,老有所養,老有所樂,安享晚年,所以發展養老服務將是重中之重。
我整理了21年、20年、19年共3年的政策報告,想來做一次文本挖掘分析報告,并對三年數據做報告比對,看看我能給發現哪些有趣驚人的數據吧!
本文分析的語料:
1)國務院關于印發國家老齡事業發展和養老服務體系規劃的通知國發〔2021〕35號、〔2020〕52號、〔2019〕5號
我將從幾個角度進行挖掘與分析
1、文本處理與分詞
2、發現新詞:挖掘文本新詞,提高詞頻分析價值
3、詞頻分析:高頻詞提取、單詞分布分析
4、關聯性分析:基于相關性、詞頻、tfidf,分析關鍵詞之間關聯度。
5、語義網絡分析:基于共現社區聚類分析語義關系網
6、情感分析:正負面占比、情緒趨勢、正負面情感詞。
文本整理與分詞
先對中文文本進行分詞,開源免費的解決方案或在線工具都很多,例如開源你可以用jieba、StanfordNLP,知乎上搜索會一大堆;
傻瓜在線免費工具也有很多,例如微詞云中文分詞、新浪微輿情工具、易詞云工具等
先做了個總的文本分詞,采用在線分詞工具分詞效果如下:
根據分詞結果顯示,養老服務被分成養老和服務了,以及文本中新詞可能部分沒有被提取出來,為了讓分析文本的準確性以及挖掘更多專業新詞,接下來先對整個文本進行新詞挖掘
文本新詞挖掘
技術過硬的人,可以選擇自己挖掘新詞,但新詞挖掘技術尚不成熟,花費精力也不少;我這里引用的是一款在線新詞挖掘工具
把整個文本先導入,可以導入關心的高頻詞,這些數據可從上面分詞結果中選擇如“養老,服務,老年人,機構,發展,建設,社會,健康,社區,建立,開展,國家,政策,老齡,提供,民政部,規劃,護理,保障,改革,管理,能力,政府”
這里可以根據詞頻、凝聚度、自由度、新詞概率選擇新詞結果
使用新詞挖掘工具結果如下
使用上面中文分詞工具,并把新詞導入自定義詞典后,看下分詞結果效果變化
詞頻分析
根據上面的操作思路,我們接下來分析下,3年的養老政策文本
上面使用的兩款產品地址在這里:
1、https://fenci.weiciyun.com/cn
2、https://fenci.weiciyun.com/cn/findword/
19年養老服務政策報告詞頻分析
這里只保留了常用的詞性例如,名詞、動詞、形容詞、人名、地名、專有名詞、副詞、習語、簡稱略稱等29個常用詞性,這里展示了前140個高頻詞,其中,“養老服務”詞頻排名最大,值為68,其次是養老機構和老人。
20年養老服務政策報告詞頻分析
其中,“養老機構”詞頻排名最大,值為69,其次是“監管”和“養老服務”。
21年養老服務政策報告詞頻分析
其中,“老年人”詞頻排名最大,值為69,其次是“服務”和“發展”。
3年高頻詞數據對比
19年、20年、21年高頻詞對比數據中可以看出,這三年連續出現的高頻詞有“養老服務,養老機構,老年人,服務,建設,養老,發展,社會,開展,建立,工作,機構,標準,落實,加強,監管,制定”等
并用詞頻對比在線工具做了個數據表,如下
幾乎在21年所有高頻詞出現頻次都達到最高點,其中“老年人”出現次數最高。
我們在看看只有在19年或20年獲、或21年單獨出現的高頻有哪些
19年提到:分工負責、衛生健康委、就業、享受、供養
20年提到:安全、信用、執法、監督管理、應當、進行、數據
21年提到:健康、護理、能力、需求、基層、公辦養老機構、創新
可以看出對養老服務的政策逐步推進,從基礎需求到高級需求的一個跨越
詞頻對比工具地址:https://tools.weiciyun.com/text/diff/
19年、20年、21年三年的相關性詞云圖
從相關詞云圖可看出,19年相關詞最高的是“養老機構、”;20年、21年相關詞最高的詞都是“養老服務”出現次數足年升高,可見對養老服務的關注有增無減的趨勢。
在看下這3年的基礎數據對比結果
明顯可看出20年養老服務政策推進略有下降,與19年、21年基礎數據比
我又整理了這三年中關于服務、機構相關詞詞頻對比表
這三年一直持續關注服務設施、領域、體系、發展服務以及公共服務,20年和21年推出上門服務,21年推出了社區養老服務政策,其中21又加強了醫療服務、以及服務水平等
關于機構相關詞,近三年都有出現公辦養老機構、金融機構、醫療機構三大基礎養老機構,19年就推出了“民辦養老機構”。
單詞分布圖
這個分布圖趨勢圖就很有意思了,先看下19年,單詞分布峰值相對比較均勻,每條數據的單詞量相對較豐富
在看20年,開頭部分還能看到幾個峰值,在后半段急速下降輸出的內容很少,并且在上面分析詞頻中也有分析出20年政策大不如往年
我們在看下21年的,比較激進,尤其在開頭,達到最高峰點,從關鍵詞分布圖來看21年政策是相對激進的一年
以上關于基礎詞頻分析結果先說到這里。
詞關聯性分析
我們先看下這三年關于養老服務的關聯性數據結果,這里的數據結果都是通過微詞云中文分詞報告提供的
19年,養老服務關聯性分析結果數據
通過相關性值來看,與養老服務相關性最高的詞有:相關、機制、標準、工作、加快、推動、制度、大力、培訓、有效等相關詞。
可推斷,正在完善標準、推動加快落實政策
而通過共現值來看,與養老服務共現值最高的詞有:養老機構、發展、服務、建設、養老、工作、政府、老年人、支持、社會等詞
在看下通過TFIDF值,與養老服務有關的詞有哪些:養老服務設施、養老機構、就業、消防、老年人、信息、同步、貸款、長期、建設等詞
20年,養老服務關聯性分析結果數據
通過相關性值來看,與養老服務相關性最高的詞有:綜合、健全、發展、資金、高質量、協調、經營、加大、意見、相結合等相關詞,可推斷,相比19年今年更側重綜合、高質量以及健全的發展養老服務。
在通過共現值來看,與養老服務共現值最高的詞有:養老機構、監管、標準、加強、服務、制定、建立、規范、部門、社會等詞
在看下通過TFIDF值,與養老服務有關的詞有哪些:數據、信息、監管、標準、基本、養老機構、信用、老年人、記錄、制定等詞
21年,養老服務關聯性分析結果數據
通過相關性值來看,與養老服務相關性最高的詞有:職業院校、國家標準、層面、解決方案、法規、體現、需要、具備條件、老年學、醫務人員。
查看了相關原始數據,其中國家正在推行開展“職業院校養老服務相關專業”進一步落實人才缺口問題,并推出養老服務“國家標準”規章,可推斷養老服務正在不斷的完善中
在通過共現值來看,與養老服務共現值最高的詞有:服務、支持、養老機構、相關、建設、發展、管理、機構、專業、標準等詞
在看下通過TFIDF值,與養老服務有關的詞有哪些:發展、老年人、養老機構、建設、配套、服務、支持、相關、機構、養老服務設施等詞
語義網絡分析
我們在來分析下近三年的網絡關系,就用上面的前60個高頻詞計算下網絡矩陣看看
19年語義網絡分析:
看下網絡矩陣表,你可以自己寫程序計算,也可以用在線工具都可以,上面提到的中文分詞軟件中可生成矩陣表
我跑程序計算的共詞矩陣表結果,數據量較大,我只放了一部分數據進行展示,對應的數值是單詞之間的共現次數值
因為表數據沒有上色所以找數據比較費勁,但是仍可以看出里面的共現較高的有發展和養老服務、建設和養老設施、建設和養老服務等
其實可以初步判斷,19年的養老服務在建設和發展中
我們可以在把矩陣表轉化成Vosviewer.net格式,還可以生成一個共現聚類網絡關系圖
其中圓圈組成一個元素,元素的大小取決于節點的度、連線的強度、被引量等,元素的顏色代表其所屬的聚類,不同的聚類用不同的顏色表示,通過該視圖可以查看每個單獨的聚類,所以有圖可見我們可分析出共聚了四類
第一類:老年人、服務、分工負責、養老、養老機構、支持、開展、鼓勵、產品、推進、長期、管理、消防、依法、提升、條件
第二類:養老服務、社會、工作、建立、加強、完善、監管、制定、相關、機制、組織、信息、全國、市場監管、總局
第三類:職責、建設、社區、養老服務設施、改革、項目、企業、提供、探索、情況
第四類:民政部、地方、人民政府、政府、政策、標準、負責、落實、補貼、財政部、實施、就業、改造、享受
從四個分類可以看出,主要是圍繞著,老年人、養老服務和職責以及民政部為核心詞
我們在看看密度視圖,可以看出:密度越大位置,顏色越深,密度越小,顏色相對越淺,其中密度大小依賴于周圍區域關鍵詞的數量以及關鍵詞的重要性
重要關鍵詞主要有:養老服務、社區、民政部、服務、老年人、社會、社會、發展、標準、建設等
20年語義網絡分析:
先看下網絡矩陣圖,這次我用中文分詞進行生成,大家看下效果如何,這里最大可生成50個詞,我自己跑代碼的話就可以生成更多了,但大多數情況50個詞以夠用了
這里生成的矩陣表自帶顏色的,系統會把共現次數大的數值區域顏色會深,次數值小的地方顏色會變淺,著色的功能會直觀看出哪些詞之間的共詞值更高
例如“監管與養老機構、監管與養老服務、加強和養老機構、數據與信息、監管與部分、監管與信息”等共現次數都很高
可以初步判斷20年,處于對養老機構的監管完善的階段
通過該視圖可以查看每個單獨的聚類,所以有圖可見我們可分析出共聚了三類
第一類:監管、養老服務、部門、建立、信用、標準、制定、政府、社會、行業、綜合、規范、推動、公開、健全、制度、發展、措施、建設、執法、檢查、監督、行政、職責
第二類:信息、數據、實施、組織、養老服務領域、共享、國家、服務質量、水平、職業技能、從業人員、養老
第三類:養老機構、加強、依法、負責、服務、安全、管理、老年人、機構、工作、行為、登記、應急、引導、民政部門、指導、開展、責任、風險、消防、資金、運營、落實、督促
從四個分類可以看出,主要是圍繞著“監管、信息、養老機構”為核心詞
我們在看看密度視圖,可以看出重要關鍵詞主要有“監管、部門、信用、依法、加強、養老服務、信息”等
21年語義網絡分析:
使用微詞云中文分詞先生成上色的共詞矩陣表
從顏色深淺可以看出,共現最高的詞有老年人和服務、發展和老年人、社會和老年人、支持和老年人、加強和老年人、鼓勵和老年人、健康和老年人
其實可以看出,從19年”建設養老服務設施“到20年監管養老服務在到21年老年人服務,發展支持加強老年人等高度共現詞來看,21年真正的把養老服務投入到老人身上,也可以初步說明,養老服務在從設備、監管上到達了具體老年人身上了,所以養老服務政策更加具有落實性,完善性了
通過該視圖可以查看每個單獨的聚類,所以有圖可見我們可分析出共聚了四類
第一類:養老機構、建立、完善、護理、提升、能力、養老、政策、需求、機制、制度、健全、公辦養老機構、保障、水平、加大
第二類:支持、養老服務、建設、推動、規劃、標準、改造、地方、實施、制定、養老服務設施、工作
第三類:發展、加強、健康、推進、結合、產品、積極、國家、教育、企業、創新、重點、全國、促進、行動、用品、智能
第四類:老年人、服務、社會、開展、鼓勵、機構、提供、社區、引導、組織、基層、活動、家庭、條件、居家
從四個分類可以看出,主要是圍繞著“養老機構、支持、發展、老年人”為核心詞。
我們在看看密度視圖,可以看出重要關鍵詞主要有“老年人、支持、推進、發展”等
以上分析可看出,19年、20年21年的養老服務關注點個不相同,從不同的維度去優化推薦養老服務行業
情感正負面分析
我們還可以簡單的分析下關于這三年的情感請趨勢
這里借助一款在線的情感分析軟件來完成
地址:https://fenci.weiciyun.com/cn/sentiment/
19年情感分析傾向結果展示
20年情感分析傾向結果展示
21年情感分析傾向結果展示
從這三年的情感占比可看出,偏向正面的占比較高,尤其是20年正面占比最高;但從情緒值與數量分布情況數據表來看19年正面得分最高,可達19.12分;
從正面詞和負面詞顯示來看,19年正面詞主要有:服務、職責、發展、建設;20年正面詞主要有:服務、負責、管理、建設;21年正面詞主要有:服務、發展、支持、建設
而從負面詞來看,19年負面詞主要有:老年、問題、困難;20年負面詞主要有:風險、活動、處置;21年負面詞主要有:老年、結合、活動
好了本次關于三年養老服務政策分析就到這里,拋磚引玉,希望對你的做文本挖掘分析有思路上的幫助。
也希望國家的養老服務政策能讓所有老人能有個健康快樂的養老生活,快樂平安的度過余生。