99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

不會(huì)寫代碼如何進(jìn)行大數(shù)據(jù)文本分析——主題分析篇

2020-03-31 10:18:00
admin
原創(chuàng)

上一期文章中,銳研團(tuán)隊(duì)為大家介紹了不會(huì)寫代碼如何進(jìn)行詞頻統(tǒng)計(jì)并生成詞云圖。(《不會(huì)寫代碼如何進(jìn)行大數(shù)據(jù)文本分析——詞頻統(tǒng)計(jì)篇》)事實(shí)上,這只是大數(shù)據(jù)文本分析中的冰山一角,詞頻統(tǒng)計(jì)只是簡單地對(duì)文本內(nèi)容進(jìn)行了描述性分析,屬于較為常規(guī)的數(shù)據(jù)分析,能揭示出一些問題,概括、表述事物狀況。簡單的描述性分析之后是更為深度的文本數(shù)據(jù)分析,從大量非結(jié)構(gòu)的數(shù)據(jù)中提煉出模式,也就是有用的信息或知識(shí)的半自動(dòng)化過程。


該系列的文本分析介紹主要涉及文章內(nèi)容LDA主題模型分析、基于關(guān)鍵詞的主題抽取、主題分析、文本分類、詞向量/關(guān)聯(lián)詞分析。今天這一期文章,我們將以疫情期間采集到的近千條第一財(cái)經(jīng)相關(guān)報(bào)道為例,介紹文章內(nèi)容LDA主題模型分析的詳細(xì)教程。


一、什么是LDA主題模型


要解釋什么是LDA主題模型,由于它屬于概率主題模型的子類,首先要解釋概率主題模型。

 

概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,基本原理是認(rèn)為文檔是若干主題的混合概率分布,而每個(gè)主題又是一個(gè)關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項(xiàng)方法當(dāng)中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。

 

LDA是一種典型的無監(jiān)督(也就是每段文本沒有標(biāo)簽,我們事先不知道文本內(nèi)容)、基于統(tǒng)計(jì)學(xué)習(xí)的詞袋模型,即它認(rèn)為一篇文本內(nèi)容是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文本可以包含多個(gè)主題,文本中每一個(gè)詞都由其中的一個(gè)主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文本中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標(biāo)注的海量文本。


二、LDA主題模型與人工編碼的區(qū)別


在人大新聞系RUC新聞坊的報(bào)道《2286篇肺炎報(bào)道觀察:誰在新聞里發(fā)聲?》中,研究者梳理了新冠肺炎疫情相關(guān)的2286條原創(chuàng)報(bào)道,參照趙亞男(2015)針對(duì)西方媒體對(duì)埃博拉疫情的報(bào)道研究中對(duì)報(bào)道內(nèi)容的分類,將報(bào)道主題進(jìn)行事先分類,最終通過人工編碼的方式對(duì)報(bào)道內(nèi)容進(jìn)行了分析。

 

利用傳統(tǒng)人工編碼可以對(duì)小批量文本內(nèi)容進(jìn)行主題分析,前提是需要在分析前人工設(shè)定好主題類目,以及訓(xùn)練一批具備專業(yè)素養(yǎng)的編碼員。這和LDA模型的邏輯其實(shí)是恰恰相反的。傳統(tǒng)人工編碼需要事先建立規(guī)則,再對(duì)每一篇文本進(jìn)行編碼;而LDA模型則是一種典型的“無監(jiān)督學(xué)習(xí)”(也就是每段文本沒有標(biāo)簽,我們事先不知道文本內(nèi)容)、基于復(fù)雜算法的模型。


換句話說,對(duì)文本內(nèi)容沒有事先了解的情況下,也可以通過建構(gòu)LDA主題模型對(duì)海量文本進(jìn)行主題分析。


三、如何實(shí)現(xiàn)主題分析


了解了什么是LDA主題模型后,我們回到需要研究的問題上,不會(huì)寫代碼,如何進(jìn)行大數(shù)據(jù)分析?在這里,我們依然以爬取到的來自第一財(cái)經(jīng)官網(wǎng)新冠肺炎疫情相關(guān)板塊的文章為例,為大家介紹如何使用銳研云文析平臺(tái)對(duì)文本內(nèi)容進(jìn)行主題分析。

 

數(shù)據(jù)采集的時(shí)間區(qū)間為2019.12.31~2020.2.20,共計(jì)1733篇,包括原創(chuàng)及轉(zhuǎn)載。采集的字段為標(biāo)題、作者、來源、摘要、內(nèi)容以及發(fā)布日期。最終得到的數(shù)據(jù)如下:



Step 1 導(dǎo)入數(shù)據(jù)


首先我們將數(shù)據(jù)導(dǎo)入文本庫,并對(duì)文本進(jìn)行了數(shù)據(jù)清洗(見上期),在分析模塊中選擇【主題分析】



Step 2 建立主題分析


LDA模型的主題數(shù)需要人工來確定,云文析平臺(tái)支持用戶自定義主題參數(shù),進(jìn)行不同嘗試后選出最佳主題數(shù)。我們分別嘗試了將主題數(shù)定義為5、8、10,進(jìn)行了主題分析。



Step 3 提煉主題


為了確保分類的準(zhǔn)確性,我們對(duì)不同數(shù)量的主題分類進(jìn)行了對(duì)比,通過以下兩個(gè)標(biāo)準(zhǔn)來判斷該分類是否合理:

(1)主題的關(guān)鍵詞是否能夠有明顯的區(qū)分

(2)每個(gè)文章至少與一個(gè)主題有比較高的對(duì)應(yīng)關(guān)系

 

以主題數(shù)量為5時(shí)得到的分類結(jié)果為例,如下圖所示:

如圖所示,主題數(shù)量為5時(shí),分類結(jié)果區(qū)域分為三部分,【主題文本數(shù)量統(tǒng)計(jì)圖】中點(diǎn)擊柱狀圖可查看各主題文本數(shù)量;在【分析結(jié)果】中,各主題分類結(jié)果下系統(tǒng)提供的關(guān)鍵詞之間沒有大量重復(fù)關(guān)鍵詞,能夠較直觀的概括出主題;同時(shí),通過查看【文本概率詳情】可以發(fā)現(xiàn),每一篇文章都有一個(gè)主題概率最高的得分,且大部分都大于0.5,能夠較明顯地區(qū)分該文章主題。


主題分類數(shù)為5時(shí)的文本概率


然而,當(dāng)主題分類數(shù)分別為8和10時(shí),每篇文章在其中一個(gè)主題下的概率比較小,很多甚至只有0.2、0.3不等,不能明顯區(qū)分該文章主題:

主題分類數(shù)為8時(shí)的文本概率

主題分類數(shù)為10時(shí)的文本概率



通過上述對(duì)比可知,當(dāng)主題分類數(shù)為5時(shí)分類結(jié)果最優(yōu),我們對(duì)分析結(jié)果進(jìn)行了提煉,結(jié)合財(cái)經(jīng)類媒體的特性,我們認(rèn)為,以下五類主題能夠較為全面地概括此次疫情期間新聞報(bào)道

主題1-疫情對(duì)經(jīng)濟(jì)的影響;

主題2-企業(yè)生產(chǎn)情況;

主題3-疫情現(xiàn)狀;

主題4-中國對(duì)新型冠狀病毒的臨床研究情況;

主題5-救援物資情況。


各主題分類比例


如果想要對(duì)主題分類結(jié)果做進(jìn)一步分析,云文析還支持導(dǎo)出文本概率詳情:


由于本次主題分析數(shù)據(jù)來源于第一財(cái)經(jīng)官網(wǎng)新冠肺炎疫情相關(guān)板塊,采集的時(shí)間區(qū)間為2019.12.31~2020.2.20,我們想要進(jìn)一步分析不同報(bào)道主題隨著時(shí)間的推移,每天的新聞報(bào)道情況如何。根據(jù)導(dǎo)出的文本概率詳情文件,結(jié)合文本發(fā)布時(shí)間,我們?cè)趀xcel里對(duì)不同主題的新聞報(bào)道情況做了數(shù)量和比例上的分析,具體如下:

各主題新聞報(bào)道數(shù)量變化趨勢(shì)


各主題新聞報(bào)道占比變化趨勢(shì)



由于1月20日前疫情相關(guān)新聞報(bào)道數(shù)量較小,我們選擇了1月20日之后的數(shù)據(jù),可以看出,主題1-疫情對(duì)經(jīng)濟(jì)的影響,隨著武漢封城之后新聞報(bào)道量逐步增加;主題5-救援物資,前期關(guān)注較多,后期增幅平緩,但也保持著持續(xù)的關(guān)注。


—————————————————————————————————————————————————

銳研·云文析作為文本大數(shù)據(jù)分析與挖掘云平臺(tái),可應(yīng)用自然語言處理、機(jī)器學(xué)習(xí)、人工智能等技術(shù)對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行分析挖掘,并呈現(xiàn)可視化分析結(jié)果。今后,銳研團(tuán)隊(duì)會(huì)分享更多數(shù)據(jù)分析相關(guān)實(shí)用工具及案例,希望此文能為您提供一些幫助。


疫情期間,銳研云文析開放個(gè)人用戶注冊(cè),有相關(guān)研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開通更多權(quán)限。銳研·云文析網(wǎng)址:https://wx.ringdata.com

    發(fā)表評(píng)論
    評(píng)論通過審核后顯示。
    移動(dòng)訪問