不會寫代碼如何進行大數(shù)據(jù)文本分析——詞頻統(tǒng)計篇
- 2020-03-18 14:01:00
- admin 原創(chuàng)
提到大數(shù)據(jù)分析,百度百科會為你提供許多專業(yè)名詞,人們往往聯(lián)想到的是掌握了專業(yè)技能的程序員。但事實上,普通人或許不需要理解諸如python等程序語言背后的運行機制,他們可以通過更簡單便捷的途徑找到適合自己的工具,完成專業(yè)程序員用代碼才可以實現(xiàn)的任務(wù)。
舉個最簡單的例子,當(dāng)下數(shù)據(jù)分析文章中必不可少的就是詞云圖,指的是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”以視覺化的形式呈現(xiàn)。如何實現(xiàn)這一功能,市面上已經(jīng)出現(xiàn)了許多在線免費詞云工具,英文版有Wordart、Wordcloud,中文版有微詞云,都可以方便快捷地達到如下圖效果:
簡單的一鍵生成詞云圖,其背后是通過代碼幫你解決了多種模式的文本分詞處理、去停用詞、去高頻詞等難題。但是,這些市面上已有的免費工具普遍存在許多弊端,就是無法解決批量文本(往往只能導(dǎo)入單篇文本或多次錄入),也無法根據(jù)詞性進行篩選,再復(fù)雜一點的計算諸如Bigrams計算更是沒有辦法實現(xiàn)。Bigrams計算是為了探測出文本中的新詞,基于詞匯之間的共現(xiàn)關(guān)系---如果兩個詞經(jīng)常一起毗鄰出現(xiàn),那么這兩個詞可以結(jié)合成一個新詞,比如“新冠”、“肺炎”經(jīng)常一起出現(xiàn)在不同的段落里,那么,“新冠肺炎”則是二者合成出來的新詞。
機器是死的,但人的需求往往是多變的。一個社會科學(xué)領(lǐng)域的老師想要分析疫情期間媒體報道中出現(xiàn)的高頻人物,或者是媒體的報道傾向,他只需要篩選出數(shù)據(jù)中的名詞或形容詞;而當(dāng)涉及到本學(xué)科出現(xiàn)的專有名詞時,他又需要一個工具能夠?qū)@些名詞進行全新的組合,建立專屬的學(xué)科詞典。
背后更深的邏輯是,文本挖掘中對詞匯的分析功能是遠大于詞云圖的。銳研云文析平臺,可以基于上述功能,提供專業(yè)化的文本分析工具,具體體現(xiàn)在以下幾點:
◆支持批量文本數(shù)據(jù)導(dǎo)入
◆支持詞性選擇
◆支持自定義詞典

在這里,我們以疫情期間在網(wǎng)絡(luò)公開平臺爬取到的數(shù)千條疫情相關(guān)新聞為例,當(dāng)我們想要實現(xiàn)批量中文分詞及詞頻統(tǒng)計時,我們是如何完成的:
Step 1 導(dǎo)入數(shù)據(jù)
首先登陸銳研云文析,在【我的分析】中新建文本庫,點擊[操作],選擇其中的[數(shù)據(jù)]字段,選取需要分析處理的數(shù)據(jù)文件,在標(biāo)題映射中選擇對應(yīng)的目標(biāo)字段,最后進行上傳。

Step 2 數(shù)據(jù)預(yù)處理
在處理數(shù)據(jù)之前需要對數(shù)據(jù)進行一定的預(yù)處理,以避免無用的詞匯對分析結(jié)果造成干擾。
首先我們觀察到數(shù)據(jù)中含有“此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利”等無效信息;可以用數(shù)據(jù)清洗對無用信息來進行替換。
將內(nèi)容中的一些無效信息替換成空格,可以達到刪除的效果。
Step 3 自定義詞典
我們研究的話題有一些系統(tǒng)無法識別的詞組出現(xiàn),譬如“新冠肺炎”、“新型冠狀病毒”、“華南海鮮市場”等,系統(tǒng)無法識別這些詞組;可以在【分析配置】中通過添加自定義詞組來避免此類問題。在這里,我們創(chuàng)建了一個疫情詞典,根據(jù)自己的文本數(shù)據(jù)添加相應(yīng)的詞組。
Step 4 詞頻分析
詞頻分析可以實現(xiàn)對文本的分詞和詞頻統(tǒng)計。目前分詞算法支持基本分詞、精準(zhǔn)分詞、NLP分詞和面向索引分詞四類。

點擊“新建詞頻統(tǒng)計”;我們分析的數(shù)據(jù)是第一財經(jīng)報道的新聞內(nèi)容,分詞字段選擇“內(nèi)容”;在這里我們使用的分詞算法是“精準(zhǔn)分詞”;在分詞詞典中找到剛剛創(chuàng)建的分詞詞典“疫情”;最后點擊“開始分詞”,等待分析完成。
Step 5 分析結(jié)果
云文析目前支持對詞頻分類結(jié)果進行數(shù)量統(tǒng)計、詞性篩選,并自動生成簡單詞云圖。
想要生成更具設(shè)計感的詞云圖,云文析支持導(dǎo)出數(shù)據(jù)結(jié)果,可利用目前市面上的在線免費工具(Wordart、Wordcloud,微詞云等),選擇合適的模版生成您需要的樣式。
點擊鏈接查看在線免費生成詞云圖教程:
Wordart
https://mp.weixin.qq.com/s/ErTP92fF8R8zPgiROObmRw
https://www.sohu.com/a/151356882_99910245
微詞云
https://zhuanlan.zhihu.com/p/59252741
Wordclouds
https://blog.csdn.net/DSTJWJW/article/details/93884142
銳研團隊后續(xù)會分享更多數(shù)據(jù)分析相關(guān)實用工具案例,希望此文能為您提供一些幫助。
- 上海市社會工作研究會2024年學(xué)術(shù)年會暨第二屆長三角金融社會工作論壇在滬舉行
- 人工智能如何改變社會科學(xué)的面貌?——AI與社會科學(xué)的學(xué)術(shù)對話紀(jì)實(下)
- 人工智能如何改變社會科學(xué)的面貌?——AI與社會科學(xué)的學(xué)術(shù)對話紀(jì)實(上)
- 校企協(xié)同 | 浙江越秀外國語學(xué)院到訪上海萌泰數(shù)據(jù)
- 2024年(第十六屆)國際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計研究會年會在哈爾濱商業(yè)大學(xué)成功舉辦
- 全面深化改革與中國社會學(xué)新征程:中國社會學(xué)會2024年學(xué)術(shù)年會在哈爾濱工程大學(xué)舉行
- 2024 萌泰·銳研 AI FOR SOCIAL SCIENCE 產(chǎn)品發(fā)布會成功舉辦