不會寫代碼如何進行大數據文本分析——短語抽取篇
- 2020-03-31 10:44:00
- admin 原創
上一期欄目中我們介紹了如何利用銳研·云文析進行詞頻統計并最終生成詞云圖。(《不會寫代碼如何進行大數據文本分析——詞頻統計篇》)
事實上,除了簡單的詞頻統計,云文析還能更進一步進行短語統計(支持N-GRAM分析算法),詞組數可選擇兩到四詞不等。N-Gram是一種基于統計語言模型的算法。它的基本思想是將文本里面的內容按照字節進行大小為N的滑動窗口操作,形成了長度是N的字節片段序列。常應用于搜索引擎或輸入法的猜想或者提示,在這里只是借助該算法實現簡單的短語抽取以便更好的對文本內容進行描述性分析。
還是以疫情期間收集到的1733條第一財經官網新聞數據為例,我們選擇了內容字段進行短語抽取,具體步驟如下:
首先在數據庫分析中新建短語抽取,我們在這里選擇了兩詞抽取、三詞抽取和四詞抽取以作對比示范,大家可以根據具體需求進行調整。

系統顯示運行成功后,點擊右邊箭頭查看抽取結果
全部抽取結果如下,點擊詞組篩選可以分別查看兩詞、三詞、四詞抽取結果
在這里,我們先選擇查看兩詞抽取結果,由于選擇的文本內容來源媒體報道,不免有一些固定格式及記者稱呼對結果產生干擾,我們選擇刪除了排序第4的詞語【財經記者】和排序第17的【記者表示】。
最后,選擇生成前30詞云圖,兩詞短語抽取最終結果如下圖(字體越大,代表出現頻率越高):三三詞短語抽取結果如下圖:
銳研云文析作為文本大數據分析與挖掘云平臺,可應用自然語言處理、機器學習、人工智能等技術對大規模文本數據進行分析挖掘,并呈現可視化分析結果。今后,銳研團隊會分享更多數據分析相關實用工具及案例,希望此文能為您提供一些幫助。
發表評論
新聞動態