99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

科技創新 | BigResearch:基于互聯網的大數據研究平臺

2015-06-02 04:40:00
謝承灝 萌泰科技
原創
摘要:銳研大數據研究平臺是一套基于Hadoop 平臺面向互聯網大數據領域,集互聯網數據動態采集、文本分析、數據可視化和專題數據庫管理于一體的軟件產品,并能夠支持自定義開發和擴展。

銳研大數據研究平臺是一套基于Hadoop 平臺面向互聯網大數據領域,集互聯網數據動態采集、文本分析、數據可視化和專題數據庫管理于一體的軟件產品,并能夠支持自定義開發和擴展。


21世紀是互聯網大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。如此眾多數據中的大部分為非結構化文本數據。如何通過對這些非結構化數據進行存儲、分析和利用,并從中挖掘出有價值的信息,將是下一代大數據調研技術的發展方向。

銳研大數據研究平臺(Ring BigResarch)是一套面向互聯網大數據領域,集互聯網數據動態采集、文本分析、數據可視化和專題數據庫管理于一體的軟件產品。產品基于主流的開源軟件(Hadoop)技術框架,具有穩定、可靠、高性能和高可擴展性。


銳研大數據研究平臺主要包括以下幾個組成部分:


(1)專題數據庫

(Ring BigResearch Databases)

專題數據庫是數據內容側重于某一專題的數據集合,常針對某類專業應用或具體領域而建立。

專題數據庫采用傳統關系數據庫與Hadoop 平臺相結合的基礎架構,能夠滿足各類結構化數據和非結構化數據的存儲和訪問需求。


(2)大數據分布式計算平臺

(Ring BigResearch Hadoop)

銳研大數據分布式計算平臺是大數據研究平臺的支撐平臺。

基于Hadoop 平臺架構,集成了HDFS, HiveMapReduce等模塊,能夠支持建立服務器集群進行分布式存儲和計算,部署容易,擴展性強。


(3)互聯網數據動態采集系統

(Ring BigResearch WebExtrator)

銳研互聯網數據動態采集系統是針對大數據調研領域的一款數據采集產品。該系統能夠允許用戶設定互聯網數據源,通過數據抓取技術動態采集文本數據,數據源包括各類論壇、微博、新聞和文獻等平臺。用戶可以自定義需要監測的關鍵字及關鍵字組合,系統能夠智能抓取相關網頁的文本內容和URL資源。



(4)文本內容分析系統

(Ring BigResearch TextAnalyzer)

銳研文本內容分析系統能夠對采集的文本內容進行文本分析,通過中文處理引擎,結合系統和用戶自定義的詞匯字典庫進行各類主題分析。系統主要分為中文處理引擎、詞匯字典庫和分析結果展現三個部分。其中引擎主要處理中文分詞、將分詞與詞匯字典庫中的字典進行匹配、分類。詞匯字典庫主要負責存儲主題模型的詞匯詞典,詞典可由用戶進行自定義增減。分析結果展現部分可進行常規的詞頻分析,聚類分析,情感分析等。


(5)數據可視化系統

(Ring BigResearch DataVisual)

數據可視化系統是大數據研究平臺的核心模塊之一,能夠實現可視化的統計報表、文本詞云、數據地圖等功能,并能夠支持用戶自定義的可視化開發。數據可視化有助于發現數據間隱藏的相關關系,是進行描述性研究和探索性研究的必要工具。


(6)專題數據管理系統

(Ring BigResearch SpecDBMS)

銳研專題數據庫管理系統是基于全新云計算架構研發的在線數據共享管理平臺。該平臺可以進行一個或多個專題數據庫的存儲、訪問和管理維護功能。系統提供了基于Web的統一管理平臺,以方便對各類數據庫進行統一管理;系統可為快速構建大數據研究服務體系提供了專業的技術支撐。


    發表評論
    評論通過審核后顯示。
    移動訪問