科技創新 | 云文析:文本數據可視化分析
- 2019-06-29 17:25:00
- admin 原創
對大規模文本的分析挖掘一直是學術界和工業界面臨的技術難題之一,隨著自然語言處理等人工智能技術的發展,通過計算機對大規模文本的深度挖掘和理解得以可能。銳研·云文析(RING TEXT ANALYZER)是萌泰數據旗下文本大數據分析與挖掘云平臺。云文析應用自然語言處理、機器學習、人工智能、大數據等技術,可對大規模文本數據進行分析挖掘,并呈現可視化分析結果。
云文析平臺集成了數據清洗、詞頻統計、詞云展現、文本分類、文本聚類、情感分析、主題分析、詞向量分析、詞共現網絡、事件網絡、新聞指數等各類可視化分析模型和工具。可支持從文本內容中提取時間、空間、人物、機構、事件、觀點、情感等內容,實現對各類文本的多維度可視化呈現和分析研究。
平臺可為相關領域的學者、媒體機構、政府機構、企業等用戶提供新聞數據可視化分析和研究服務,幫助用戶更好地洞察和了解社會現象,市場需求以及政治、經濟、社會變遷的趨勢。
云文析在科研教學和社會服務等方面都具有重大的學術價值和應用價值。在科研教學方面,國內尚缺乏面向學術研究的文本大數據研究平臺,本項目可以彌補這一短板。教學方面,本項目可以支持國內社會科學專業師生進行課堂教學和上機實踐,如面向新聞專業的課程可覆蓋研究方法設計、數據新聞、計算傳播學等課程,面向營銷學的課程可包括數字營銷,市場調查與研究等課程;科研方面,本項目可以幫助社會科學領域的研究人員完成原始資料收集、文本內容分析、輿情分析、傳播路徑和脈絡的梳理、數據可視化等研究內容和操作。
在社會服務方面,其應用主要在于新聞輿情領域。該項目可以為政府、企業和媒體從業者等不同用戶群體帶來價值。政府管理者可以通過對本平臺更全面地了解社情民意,分析突發事件的輿情規律,洞察經濟社會發展的時代特征;企業用戶可以通過本平臺了解消費者輿情,產品需求變化,競爭對手動態等信息;媒體記者可以通過本平臺梳理出新聞事件傳播的路徑,找到不同事件之間的關聯性。
云文析主要功能如下:
(1)數據清洗對文本庫進行數據預處理的可視化工具;
創建不同的清洗條件,根據設置的條件能快速清洗數據;
對清洗的數據可以保存到新的文本庫。
(2)銳研NLP
集成主流自然語言處理(NLP)引擎;
支持文本分詞,詞性標注,文本摘要,關鍵詞提取和詞云展現;
支持自定義文本語料庫。
(3)詞頻統計
支持詞頻統計,以及詞云圖分析展現;
可根據不同的詞性進行篩選統計;
可根據條件篩選對部分文本進行詞頻統計。
(4)文本分類
支持多種分類算法;
支持對分類訓練集的管理和維護;
支持對多種分類結果進行比較。
(5)文本聚類
支持K-Means, STC, Lingo等多種聚類算法;
支持聚類算法參數的調整;
聚類結果可以導出。
(6)情感分析
支持進行基于情感字典的情感分析;
集成多個情感字典庫,包括臺灣大學中文情感庫、LIWC等。
支持自定義情感字典庫。
詞向量分析
對一組文本進行Word2Vec詞向量分析;
可查詢詞的詞向量;
可以發現詞的相似性。
(7) 主題分析
基于LDA算法對一組文本進行主題分析;
可以設定LDA算法的模型參數;
可以查詢算法運行的主題分類結果。
(8) 詞共現分析
基于詞共現網絡算法對一組文本進行分析;
支持查詢詞和詞共現的概率;
可視化呈現詞共現網絡圖。

作為對銳研·云采集(RING SPIDER PLATFORM)的姊妹產品,云文析可支持對爬蟲采集的文本數據進行深度分析和挖掘。云文析亦可支持分析用戶上傳的自定義文本數據。就部署方式而言,云文析既可支持獨立的公有云或私有云部署,也可以與銳研·云采集一起集成到銳研文本大數據研究平臺(RING BIGRESEARCH)上。