99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

不會寫代碼如何進行大數(shù)據(jù)文本分析——詞頻統(tǒng)計篇

2020-03-18 14:01:00
admin
原創(chuàng)
摘要:伴隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越能發(fā)現(xiàn)數(shù)據(jù)尤其是大數(shù)據(jù)對于工作、生活的意義,“大數(shù)據(jù)是信息時代的石油”,如何從海量數(shù)據(jù)中挖掘有效信息是許多人面臨的難題。

提到大數(shù)據(jù)分析,百度百科會為你提供許多專業(yè)名詞,人們往往聯(lián)想到的是掌握了專業(yè)技能的程序員。但事實上,普通人或許不需要理解諸如python等程序語言背后的運行機制,他們可以通過更簡單便捷的途徑找到適合自己的工具,完成專業(yè)程序員用代碼才可以實現(xiàn)的任務(wù)。

 

舉個最簡單的例子,當(dāng)下數(shù)據(jù)分析文章中必不可少的就是詞云圖,指的是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”以視覺化的形式呈現(xiàn)。如何實現(xiàn)這一功能,市面上已經(jīng)出現(xiàn)了許多在線免費詞云工具,英文版有Wordart、Wordcloud,中文版有微詞云,都可以方便快捷地達到如下圖效果:


簡單的一鍵生成詞云圖,其背后是通過代碼幫你解決了多種模式的文本分詞處理、去停用詞、去高頻詞等難題。但是,這些市面上已有的免費工具普遍存在許多弊端,就是無法解決批量文本(往往只能導(dǎo)入單篇文本或多次錄入),也無法根據(jù)詞性進行篩選,再復(fù)雜一點的計算諸如Bigrams計算更是沒有辦法實現(xiàn)。Bigrams計算是為了探測出文本中的新詞,基于詞匯之間的共現(xiàn)關(guān)系---如果兩個詞經(jīng)常一起毗鄰出現(xiàn),那么這兩個詞可以結(jié)合成一個新詞,比如“新冠”、“肺炎”經(jīng)常一起出現(xiàn)在不同的段落里,那么,“新冠肺炎”則是二者合成出來的新詞。

 

機器是死的,但人的需求往往是多變的。一個社會科學(xué)領(lǐng)域的老師想要分析疫情期間媒體報道中出現(xiàn)的高頻人物,或者是媒體的報道傾向,他只需要篩選出數(shù)據(jù)中的名詞或形容詞;而當(dāng)涉及到本學(xué)科出現(xiàn)的專有名詞時,他又需要一個工具能夠?qū)@些名詞進行全新的組合,建立專屬的學(xué)科詞典。

 

背后更深的邏輯是,文本挖掘中對詞匯的分析功能是遠大于詞云圖的。銳研云文析平臺,可以基于上述功能,提供專業(yè)化的文本分析工具,具體體現(xiàn)在以下幾點:


支持批量文本數(shù)據(jù)導(dǎo)入

支持詞性選擇

支持自定義詞典





在這里,我們以疫情期間在網(wǎng)絡(luò)公開平臺爬取到的數(shù)千條疫情相關(guān)新聞為例,當(dāng)我們想要實現(xiàn)批量中文分詞及詞頻統(tǒng)計時,我們是如何完成的:




Step 1  導(dǎo)入數(shù)據(jù)


首先登陸銳研云文析,在【我的分析】中新建文本庫,點擊[操作],選擇其中的[數(shù)據(jù)]字段,選取需要分析處理的數(shù)據(jù)文件,在標(biāo)題映射中選擇對應(yīng)的目標(biāo)字段,最后進行上傳。






Step 2 數(shù)據(jù)預(yù)處理


在處理數(shù)據(jù)之前需要對數(shù)據(jù)進行一定的預(yù)處理,以避免無用的詞匯對分析結(jié)果造成干擾。


首先我們觀察到數(shù)據(jù)中含有“此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利”等無效信息;可以用數(shù)據(jù)清洗對無用信息來進行替換。



將內(nèi)容中的一些無效信息替換成空格,可以達到刪除的效果。



Step 3 自定義詞典


我們研究的話題有一些系統(tǒng)無法識別的詞組出現(xiàn),譬如“新冠肺炎”、“新型冠狀病毒”、“華南海鮮市場”等,系統(tǒng)無法識別這些詞組;可以在【分析配置】中通過添加自定義詞組來避免此類問題。在這里,我們創(chuàng)建了一個疫情詞典,根據(jù)自己的文本數(shù)據(jù)添加相應(yīng)的詞組。






Step 4 詞頻分析


詞頻分析可以實現(xiàn)對文本的分詞和詞頻統(tǒng)計。目前分詞算法支持基本分詞、精準(zhǔn)分詞、NLP分詞和面向索引分詞四類。


點擊“新建詞頻統(tǒng)計”;我們分析的數(shù)據(jù)是第一財經(jīng)報道的新聞內(nèi)容,分詞字段選擇“內(nèi)容”;在這里我們使用的分詞算法是“精準(zhǔn)分詞”;在分詞詞典中找到剛剛創(chuàng)建的分詞詞典“疫情”;最后點擊“開始分詞”,等待分析完成。


Step 5 分析結(jié)果

云文析目前支持對詞頻分類結(jié)果進行數(shù)量統(tǒng)計、詞性篩選,并自動生成簡單詞云圖。

想要生成更具設(shè)計感的詞云圖,云文析支持導(dǎo)出數(shù)據(jù)結(jié)果,可利用目前市面上的在線免費工具(Wordart、Wordcloud,微詞云等),選擇合適的模版生成您需要的樣式。

點擊鏈接查看在線免費生成詞云圖教程:



Wordart

https://mp.weixin.qq.com/s/ErTP92fF8R8zPgiROObmRw

https://www.sohu.com/a/151356882_99910245

 

微詞云

https://zhuanlan.zhihu.com/p/59252741

 

Wordclouds

https://blog.csdn.net/DSTJWJW/article/details/93884142


銳研團隊后續(xù)會分享更多數(shù)據(jù)分析相關(guān)實用工具案例,希望此文能為您提供一些幫助。


疫情期間,銳研云文析開放個人用戶注冊,有相關(guān)研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開通更多權(quán)限。銳研·云文析網(wǎng)址:https://wx.ringdata.com


    發(fā)表評論
    評論通過審核后顯示。
    移動訪問