99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

大數(shù)據(jù)時代下,傳統(tǒng)統(tǒng)計學(xué)有哪些變革?

2017-02-23 14:47:00
admin
轉(zhuǎn)貼
摘要:統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)息息相關(guān)。 大數(shù)據(jù)時代的到來,是統(tǒng)計學(xué)發(fā)展史上的里程碑,給統(tǒng)計學(xué)的發(fā)展帶來了前所未有的機遇,但同時,也對統(tǒng)計學(xué)提出了更多的挑戰(zhàn)。

什么是統(tǒng)計學(xué)?

“統(tǒng)計學(xué)是一門在不確定性方面為了做出正確的推斷而進行搜集、分析定量數(shù)據(jù)的科學(xué)和藝術(shù)。”

——美國百科全書

“統(tǒng)計學(xué)是一門搜集數(shù)據(jù),分析數(shù)據(jù),并根據(jù)數(shù)據(jù)進行推斷的藝術(shù)和科學(xué),最初與政府搜集數(shù)據(jù)有關(guān),現(xiàn)在包括了范圍廣泛的方法和理論。”

——大英百科全書

“一門研究怎樣有效地搜集、整理和分析帶有隨機性的數(shù)據(jù),以對所考察的問題做出推斷或預(yù)測,直至為采取一定的決策和行動提供依據(jù)和建議的學(xué)科。”

——中國百科全書

統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)息息相關(guān)。

大數(shù)據(jù)時代的到來,是統(tǒng)計學(xué)發(fā)展史上的里程碑,給統(tǒng)計學(xué)的發(fā)展帶來了前所未有的機遇,但同時,也對統(tǒng)計學(xué)提出了更多的挑戰(zhàn)。那么,大數(shù)據(jù)時代下,傳統(tǒng)統(tǒng)計學(xué)有哪些變革呢?


1. 樣本概念的深化

傳統(tǒng)統(tǒng)計學(xué)利用研究中實際觀測或調(diào)查的一部分個體(樣本),通過統(tǒng)計方法進行統(tǒng)計推斷,從而了解總體的情況。

大數(shù)據(jù)時代,數(shù)據(jù)大部分為網(wǎng)絡(luò)數(shù)據(jù),可將其分為兩種類型:靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。

靜態(tài)數(shù)據(jù)

靜態(tài)數(shù)據(jù)是當(dāng)客戶在查看數(shù)據(jù)的時候已經(jīng)被生成好了,沒有和服務(wù)器數(shù)據(jù)庫進行交互的數(shù)據(jù)。

此類數(shù)據(jù)的最大特點是:樣本等同于總體,這樣無需去提取樣本并檢測樣本的可用性,減少了成本,并且總體本身對總體的反映更為準(zhǔn)確,減少了誤差。

動態(tài)數(shù)據(jù)

動態(tài)數(shù)據(jù)是隨著時間的推移而變化的,比如網(wǎng)絡(luò)訪問量、在線人數(shù)等。此時,總體表現(xiàn)為歷史長河中所有數(shù)據(jù)的總和,而我們分析的對象為“樣本”。 這里的“樣本”與傳統(tǒng)樣本的概念不同,因其并非局限于隨機抽取的數(shù)據(jù),更可以是選定的與分析目的相關(guān)的數(shù)據(jù)。


2. 數(shù)據(jù)類型的擴大

傳統(tǒng)統(tǒng)計學(xué)的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),即可以用常規(guī)統(tǒng)計指標(biāo)或圖表表現(xiàn)出來的定量數(shù)據(jù)或?qū)iT設(shè)計的定性數(shù)據(jù),有固定的結(jié)構(gòu)和標(biāo)準(zhǔn)。

大數(shù)據(jù)是指不僅包括結(jié)構(gòu)化數(shù)據(jù),還包含非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或異構(gòu)數(shù)據(jù),即一切可以記錄和存儲的信號。

結(jié)構(gòu)化數(shù)據(jù),即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù),如:學(xué)生姓名、學(xué)號等。

非結(jié)構(gòu)化數(shù)據(jù)是不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),如:圖像、音頻、視頻等。

半結(jié)構(gòu)化數(shù)據(jù)或異構(gòu)數(shù)據(jù),它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大。既不能將數(shù)據(jù)簡單的組織成一個文件按照非結(jié)構(gòu)化數(shù)據(jù)處理,也不能夠簡單的建立一個表與之對應(yīng)。如:員工的簡歷。


3.收集概念的擴展

傳統(tǒng)統(tǒng)計中,數(shù)據(jù)的收集需要根據(jù)統(tǒng)計分析的目的進行,過程包括設(shè)計調(diào)查方案、嚴(yán)格控制調(diào)查流程,因此具有低效率、高成本的缺點。

大數(shù)據(jù)時代,對數(shù)據(jù)的收集分為三步:

1)        數(shù)據(jù)預(yù)處理,包括識別與整理;

2)        數(shù)據(jù)分析,提煉有價值的信息;

3)        數(shù)據(jù)存儲。

大數(shù)據(jù)時代下,對于超大量可選擇的數(shù)據(jù),需要有針對性的搜集,同時,在存儲能力,分析能力,甄別數(shù)據(jù)的真?zhèn)危x擇關(guān)聯(lián)物,提煉和利用數(shù)據(jù),確定分析節(jié)點等方面,都需要斟酌。


4. 數(shù)據(jù)來源不同

傳統(tǒng)統(tǒng)計中是根據(jù)研究目的去收集數(shù)據(jù),來源通常是已知的,很容易對數(shù)據(jù)提供者的身份進行識別或進行事后核對。

大數(shù)據(jù)的來源一般為信息網(wǎng)絡(luò)系統(tǒng),收集的數(shù)據(jù)是一切被人為記錄的信號,不具有很強的目的性,數(shù)據(jù)的來源也很難追溯。在大數(shù)據(jù)時代,努力打造統(tǒng)計數(shù)據(jù)來源第二軌,就顯得尤為重要。


5. 量化方式的變化

傳統(tǒng)數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),對數(shù)據(jù)的量化方式已經(jīng)相當(dāng)成熟,并且比較容易得到可以直接進行分析的數(shù)據(jù)結(jié)果。

大數(shù)據(jù)時代主要面對的是非結(jié)構(gòu)化數(shù)據(jù),F(xiàn)ranks說過:“幾乎沒有哪種分析過程能夠直接對非結(jié)構(gòu)化數(shù)據(jù)進行分析,也無法直接從非結(jié)構(gòu)化的數(shù)據(jù)中得出結(jié)論”。目前,計算機學(xué)界已著手研發(fā)處理非結(jié)構(gòu)化數(shù)據(jù)的技術(shù),從統(tǒng)計角度直接處理非結(jié)構(gòu)化數(shù)據(jù),或?qū)⑵淞炕山Y(jié)構(gòu)化數(shù)據(jù),這是一個重要的研究領(lǐng)域。


6. 分析思維的改變

我們從統(tǒng)計分析、實證分析、推斷分析三個方面論述大數(shù)據(jù)時代傳統(tǒng)統(tǒng)計學(xué)分析思維的改變。

統(tǒng)計分析

傳統(tǒng)的統(tǒng)計分析過程分三步:定性—定量—再定性

首先通過經(jīng)驗判斷找到統(tǒng)計方向,即目的;其次對數(shù)據(jù)進行量化、分析、處理等;最后根據(jù)結(jié)果得出結(jié)論。

大數(shù)據(jù)時代,統(tǒng)計分析過程:定量—定性

基礎(chǔ)性的工作就是找到“定量的回應(yīng)”,直接從各種“定量的回應(yīng)”中找出有價值的、為我們所需要的數(shù)據(jù),并通過分析找到數(shù)據(jù)的特征和數(shù)量關(guān)系,進而據(jù)此做出判斷與決策。

實證分析

傳統(tǒng)的統(tǒng)計實證分析思路:假設(shè)—驗證

首先提出假設(shè),接著按照統(tǒng)計方法進行數(shù)據(jù)的收集、分析、展示,最后通過所得到的結(jié)論對假設(shè)進行驗證,事實證明,這種實證分析存在很大誤差。

大數(shù)據(jù)時代實證分析思路:發(fā)現(xiàn)—總結(jié)

對數(shù)據(jù)進行整合,從中尋找關(guān)系、發(fā)現(xiàn)規(guī)律,然后再加以總結(jié)、形成結(jié)論,這將有助于發(fā)現(xiàn)更多意外的“發(fā)現(xiàn)”。

推斷分析

傳統(tǒng)的統(tǒng)計推斷分析過程:以分布理論為基礎(chǔ),在概率保證的前提下,對總體進行推斷,通常是根據(jù)樣本特征去推斷總體特征,推斷是否正確卻取決于樣本的好壞。

大數(shù)據(jù)時代統(tǒng)計推斷分析過程:以實際分布為基礎(chǔ),根據(jù)總體的特征,進行概率的判斷,在靜態(tài)或者動態(tài)的某個時點,大數(shù)據(jù)所需處理的對象為總體數(shù)據(jù),不需要根據(jù)分布理論推斷總體特征,而要根據(jù)計算方法進行。


7. 統(tǒng)計軟件的增多

傳統(tǒng)統(tǒng)計學(xué)以統(tǒng)計模型和軟件為基礎(chǔ)進行數(shù)據(jù)分析處理,統(tǒng)計模型的作用在于對數(shù)據(jù)間的數(shù)量關(guān)系進行構(gòu)建,統(tǒng)計軟件是分析和處理數(shù)據(jù)的工具,需要研究者自主輸入經(jīng)過處理的數(shù)據(jù),以及統(tǒng)計模型的公式等。

常見的統(tǒng)計軟件有SAS,R,STATA,SPSS,MATLAB等。

大數(shù)據(jù)所依賴的數(shù)據(jù)分析技術(shù)為非關(guān)系型的,以數(shù)據(jù)中心為基礎(chǔ)。若將統(tǒng)計軟件與大數(shù)據(jù)結(jié)合起來,則統(tǒng)計分析的過程可以得到很大程度上的簡化。

綜上所述,大數(shù)據(jù)時代的來臨,對傳統(tǒng)統(tǒng)計學(xué)的變革從樣本的定義方法一直到數(shù)據(jù)分析的思維與技術(shù)均有所體現(xiàn)。可以看出,大數(shù)據(jù)使我們對數(shù)據(jù)的利用取得了更大的主動權(quán),將促使傳統(tǒng)統(tǒng)計學(xué)迅速的發(fā)展。

發(fā)表評論
評論通過審核后顯示。
移動訪問