99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

大數(shù)據(jù)的時代背景、系統(tǒng)實現(xiàn)及關(guān)鍵技術(shù)解析

2018-11-16 09:55:00
admin
原創(chuàng)



“大數(shù)據(jù)時代”翩然而至,成為本世紀繼云計算、物聯(lián)網(wǎng)后又一次顛覆性的技術(shù)變革,對國家、企業(yè)、 團體、個人都已經(jīng)或?qū)⒁a(chǎn)生巨大影響.面對洶涌澎湃的大數(shù)據(jù)浪潮,筆者擬從時代背景與技術(shù)實現(xiàn)兩個維度對大數(shù)據(jù)的基礎(chǔ)知識——概念( What)、理由( Why) 以及方式方法(How)做一簡單梳理與解析。



01信息化發(fā)展演變視閾下大數(shù)據(jù)的再審視

什么是大數(shù)據(jù)? 為什么要研究大數(shù)據(jù)? 對此,IT 行業(yè)已做出了精確的界定與合理的解釋。 2011 年,麥肯錫( McKinsey & Company) 將大數(shù)據(jù)定義為“大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群”。 隨后,IBM 公司概括了大數(shù)據(jù)的三大特點——大量化( Volume) 、多樣化( Variety)和快速化( Velocity) 。

筆者擬在此基礎(chǔ)上,聯(lián)系信息化發(fā)展演變的具體語境,對這兩個命題進行再審視,以做出更通俗的闡釋與解析。20 世紀中葉,人類邁入了信息時代。隨著計算機的發(fā)明和應(yīng)用,信息的承載從“語言”到“文字”,進而發(fā)展到了“數(shù)據(jù)”.“數(shù)據(jù)”是客觀事物的符號化表示,二進制的發(fā)明實現(xiàn)了數(shù)據(jù)在物理機器中的表達、計算和傳輸,數(shù)據(jù)可輸入計算機,被計算機程序理解和處理,這樣利用計算機強大的計算能力,人類對數(shù)據(jù)得以有效的管理與開發(fā)利用。

 

經(jīng)過近半個世紀的探索,人類以計算機為工具管理數(shù)據(jù)從依賴“特有程序”到“文件系統(tǒng)”管理,再到“數(shù)據(jù)庫管理系統(tǒng)”,基本實現(xiàn)了數(shù)據(jù)的快速組織、存儲和讀取. 以計算機為工具管理數(shù)據(jù)不僅提升了信息描述的精確性,更擴大了信息傳遞的廣泛性,信息在越來越廣闊的空間發(fā)揮著越來越重要的作用.

 

但是,信息時代在利用現(xiàn)代信息技術(shù)有效管理利用數(shù)據(jù)的同時,也帶來了數(shù)據(jù)的爆發(fā)式增長。據(jù)國際數(shù)據(jù)中心 IDC 發(fā)布[2],2010 年全球數(shù)據(jù)量已達 1. 2 ZB,2011 增長到 1. 8 ZB,2012 年達到 2. 8 ZB,全球數(shù)據(jù)總量年增長率維持在 50% 左右,預(yù)計到 2020 年,全球數(shù)據(jù)總量將達到 40 ZB. 現(xiàn)在,數(shù)據(jù)不僅數(shù)量龐大( Volume) ,增長迅速( Velocity) ,而且來源類型多樣化( Variety)。


傳統(tǒng)數(shù)據(jù)基本來源于行業(yè)或企業(yè)的內(nèi)部數(shù)據(jù),現(xiàn)在則大部分來源于互聯(lián)網(wǎng)和物聯(lián)網(wǎng). 傳統(tǒng)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,而現(xiàn)在來源于社交網(wǎng)站、電子商務(wù)、物聯(lián)網(wǎng)的數(shù)據(jù)基本都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)用關(guān)系數(shù)據(jù)庫的管理系統(tǒng)可實現(xiàn)有效的管理與開發(fā),現(xiàn)在數(shù)據(jù)因其大量、迅速、復(fù)雜,大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的能力范圍,以至于引發(fā)了數(shù)據(jù)存儲與處理的危機。

 

大數(shù)據(jù)帶來了危機,同時也呼喚著大數(shù)據(jù)處理技術(shù),推動著大數(shù)據(jù)研究的飛速發(fā)展。



02 大數(shù)據(jù)采集、處理、存儲、分析的系統(tǒng)實現(xiàn)

信息時代極大地彰顯了“數(shù)據(jù)”的價值,但人們無法有效地利用“數(shù)據(jù)”,望“大數(shù)據(jù)”而興嘆。 由此,“大數(shù)據(jù)技術(shù)”應(yīng)運而生. 2012 年,美國政府頒布《大數(shù)據(jù)研究與發(fā)展倡議》( Big Data Research and Development Initiative) ,并投資兩億美元以支持大數(shù)據(jù)相關(guān)技術(shù)的研發(fā)。

 

2015 年 9 月,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,圍繞“大數(shù)據(jù)”著手實施一系列研發(fā)應(yīng)用工程。 另外,IBM、谷歌、亞馬遜、阿里巴巴等商業(yè)公司亦紛紛推出了大數(shù)據(jù)系統(tǒng)解決方案. 當(dāng)前,大數(shù)據(jù)技術(shù)初見端倪,初顯成效。下面筆者對大數(shù)據(jù)的系統(tǒng)實現(xiàn)模式做一簡要梳理。

 

盡管當(dāng)前大數(shù)據(jù)解決方案千差萬別,采用技術(shù)五花八門,但都有一個基本相似的流程,即大數(shù)據(jù)的采集、處理、存儲、分析,圍繞流程開發(fā)工具,實現(xiàn)對大數(shù)據(jù)的科學(xué)管理合理利用。

大數(shù)據(jù)來源

大數(shù)據(jù)主要有三個來源,一是傳統(tǒng)的行業(yè)/企業(yè)內(nèi)部數(shù)據(jù),如 ERP( Enterprise Resource Planning,企業(yè)資源計劃系統(tǒng)) CRM (Customer Relation ship Management,客戶關(guān)系管理) 等,這類數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主; 

再就是泛互聯(lián)網(wǎng)數(shù)據(jù),如 QQ、微博等社交網(wǎng)站和亞馬遜、阿里巴巴等電子商務(wù)產(chǎn)生的動態(tài)數(shù)據(jù),這類數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主; 

還有就是物聯(lián)網(wǎng)數(shù)據(jù),如RFID( radio frequency identification,射頻識別) 和傳感器數(shù)據(jù),這類數(shù)據(jù)以半結(jié)構(gòu)化數(shù)據(jù)為主。

針對不同的數(shù)據(jù)類型,有不同的采集方法。

對于結(jié)構(gòu)化數(shù)據(jù)的采集利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)接口實現(xiàn)。 對于非結(jié)構(gòu)化的泛互聯(lián)網(wǎng)數(shù)據(jù),可通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開 API 等方式獲取非結(jié)構(gòu)化數(shù)據(jù),再在本地存儲為結(jié)構(gòu)化數(shù)據(jù). 對于半結(jié)構(gòu)化數(shù)據(jù)流,需借助專用采集工具,如 Chukwa、Flume 等。

 

大數(shù)據(jù)來源多樣,類型復(fù)雜,數(shù)據(jù)大多不完整或不一致,需要 ETL( Extract - Transform - Load) 進行預(yù)處理,將數(shù)據(jù)從來源端經(jīng)過抽取( extract) 、轉(zhuǎn)換( transform) 、加載( load) 至目標(biāo)數(shù)據(jù)庫或相應(yīng)文件存儲系統(tǒng)。


大數(shù)據(jù)場景下,數(shù)據(jù)量呈爆炸式增長,存儲方案一般是分布式存儲架構(gòu),以保障海量數(shù)據(jù)的讀取. 當(dāng)前較出名的存儲技術(shù)有谷歌的 GFS( Google File System) 和 Hadoop 的 HDFS( Hadoop Distributed File System)

 

另外,采用 NoSQL( Not Only SQL) 數(shù)據(jù)模型自定義數(shù)據(jù)存儲格式,對數(shù)據(jù)和系統(tǒng)架構(gòu)進行擴展,也是較流行的存儲技術(shù)。


完成了數(shù)據(jù)的采集、處理和存儲,下一步就是數(shù)據(jù)的分析和挖掘。當(dāng)前大數(shù)據(jù)分析主要采用數(shù)據(jù)倉庫、聯(lián)機分析和數(shù)據(jù)挖掘解決方案。 數(shù)據(jù)倉庫( Data Warehouse) 是核心,它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。聯(lián)機分析( On - Line Analysis Processing,簡寫為 OLAP) 和數(shù)據(jù)挖掘( Data mining) 是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用形式. OLAP 屬于驗證型的分析,輔助實現(xiàn)多元數(shù)據(jù)一致存取和多維分析,從而獲得對數(shù)據(jù)的更深入了解.


 數(shù)據(jù)挖掘是通過算法從大量的數(shù)據(jù)中搜索隱藏于其中信息的過程,它主動去發(fā)現(xiàn)有用信息,發(fā)掘潛在規(guī)律,與 OLAP 一同用于支持管理決策。


03大數(shù)據(jù)的關(guān)鍵技術(shù)解析

互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的廣泛應(yīng)用,產(chǎn)生了大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具處理能力的數(shù)據(jù)群,使得人們無法有效地利用“數(shù)據(jù)”,望“大數(shù)據(jù)”而興嘆。由此“大數(shù)據(jù)技術(shù)”應(yīng)運而生。 人們通常所說的“大數(shù)據(jù)”,其實更多地是指“大數(shù)據(jù)技術(shù)”,實質(zhì)是一個“新技術(shù)群”。 大數(shù)據(jù)技術(shù)豐富多彩,難以面面俱到,筆者僅擷取其最基本的關(guān)鍵技術(shù)做一簡要解析。


大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理在流程上并無太大差異,主要的區(qū)別在于處理方式。 大數(shù)據(jù)處理方式是基于 MapReduce 技術(shù)對海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合并行處理,MapReduce 技術(shù)應(yīng)用于各個環(huán)節(jié).MapReduce 最早是由 Google 公司研究提出的一種面向大規(guī)模數(shù)據(jù)處理的并行計算模型和方法。

 


Google 公司設(shè)計 MapReduce 的初衷主要是為了解決其搜索引擎中大規(guī)模網(wǎng)頁數(shù)據(jù)的并行化處理,但由于 MapReduce 對數(shù)據(jù)一致性要求不高,具有可擴展性和可用性,可以普遍應(yīng)用于很多大規(guī)模數(shù)據(jù)的計算問題,特別適用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的混合處理,因此 MapReduce 迅速普及成為通用的面向大數(shù)據(jù)并行處理的計算模型、軟件框架和系統(tǒng)平臺. MapReduce 的運行原理。



因為對于大數(shù)據(jù)的處理,不是一臺計算機同時處理許多任務(wù),而是許多計算機同時做一件任務(wù)的邏輯關(guān)系,所以必須進行有效的分工與協(xié)同. MapReduce 將計算機分為兩類,一類是 Master 負責(zé)調(diào)度,另一類是 Worker 負責(zé)執(zhí)行。 同時,MapReduce 將大數(shù)據(jù)處理任務(wù)分為 Map( 映射) 和 Reduce( 化簡) 兩個階段,首先 Master 對來自 User Program 的大數(shù)據(jù)進行 Map( 映射) ,即把海量數(shù)據(jù)分割成若干部分 split,分給多臺處理器 Woker 并行處理; 然后對處理結(jié)果 Reduce( 化簡) ,即把各臺處理器 Worker 處理后的結(jié)果進行匯總操作、集成輸出 Output file 以得到最終結(jié)果。

 

MapReduce 將傳統(tǒng)的查詢、分解及數(shù)據(jù)分析進行分布式處理,并基于網(wǎng)絡(luò)環(huán)境共享大量的廉價 PC資源,耦合度低,有容錯機制,所以特別適合大數(shù)據(jù)環(huán)境下的處理需求。 MapReduce 已經(jīng)成為事實上的大數(shù)據(jù)處理工業(yè)標(biāo)準(zhǔn),盡管還有很多局限性,但人們普遍公認 MapReduce 是截止目前最為成功的大數(shù)據(jù)并行處理技術(shù),也是截至目前大數(shù)據(jù)處理的關(guān)鍵技術(shù)。


04結(jié)語

大數(shù)據(jù)和其他劃時代的信息技術(shù)一樣,幾乎對所有行業(yè)及其從業(yè)人員都有革命性的影響。 大數(shù)據(jù)時代,數(shù)據(jù)就是最重要的“財富”,能匯集挖掘大數(shù)據(jù)價值為己所用的行業(yè)及其從業(yè)人員將是未來的“贏家”。 千里之行始于足下,大數(shù)據(jù)時代已經(jīng)翩然而至,融入大數(shù)據(jù)時代,成為大數(shù)據(jù)時代的佼佼者,就從了解“大數(shù)據(jù)的入門知識”開始。

    發(fā)表評論
    評論通過審核后顯示。
    移動訪問