大數據時代社會學研究的機遇和挑戰
- 2019-03-27 16:36:00
- admin 原創
一、大數據與傳統數據的區別
維基百科對大數據給出的定義是:“大數據(Big Data 或MegaData)或巨量數據、海量數據,指的是所涉及的數據量規模大到無法通過人工在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息。”這是從數量的級別(PB或ZB)來定義大數據的,主要講的是數據量巨大使得用常規的數據分析技術無法挖掘和處理。除此之外,還有一種定義是從數據的特性來定義大數據。維基百科、數據科學家、研究機構和IT界一致認為大數據有四個基本特征,即體量巨大(Volume)、價值密度低(Value)、來源廣泛且特征多(Variety)、增長速度快(Velocity),業界稱為4V特征。〔3〕據此,我們嘗試從規模與變量、類型、來源、質量、時效性及分析方法與邏輯幾個方面來探討大數據與傳統數據的本質區別。
大數據的起始計量單位至少是PB (1015B、EB (1018B) 或ZB(1021B,甚至YB(1024B)。根據國際數據公司(IDC) 的統計數據顯示,全球的數據產生量僅在2015 年就達到4.7ZB(4.7 萬億GB),當前數據總量正在以年均50%的速度增長,預計到2020年,全球數據總量將達到40ZB。我國數據量將達到8.6ZB,占全球21%。
相對而言,傳統數據的樣本規模一般較小,例如在中國有很大影響的中國社會綜合調查(CGSS)、中國家庭追蹤調查(CFPS)、中國綜合調查(CSS)、中國勞動力追蹤調查的樣本數量在6000—25000之間。與大數據動輒以艾字節(EB=1018B) 甚至澤字節(ZB=1021B) 為計量單位相比簡直是天壤之別。此外,傳統數據的變量較少,一份常規問卷的變量一般在200—300 之間;而大數據所涉及的變量較多,變量通常達千個以上。
2類型
傳統數據的類型以結構化為主,這是基于明確的研究目標而設置的標準化的數據收集規范。與此相對應,大數據的類型除了少量的結構化數據之外,大量以非結構化或半結構化的形式存在,包括網絡日志、音頻、視頻、圖片、地理位置信息等等,類型多樣的數據對數據處理能力提出了更高的要求。據相關的統計資料顯示,全世界結構化數據增長率每年大概是32%,而非結構化數據增長率則是63%。2012年,非結構化數據占互聯網數據量的85%以上。
3來源
傳統數據多數來源于抽樣調查或統計調查。而抽樣調查一般按照隨機原則,設計嚴格的抽樣程序來獲取樣本數據。國內外學術界有影響的問卷調查數據多數采用多階段、多層次與人口或勞動力規模成比例的概率抽樣方法(PPS) 以確定最終的抽樣單位,通常采用面訪的方式獲得樣本數據;而大數據是基于現代科技手段,采取實時監控、測量、存儲的方式及時獲得數據。例如,基于互聯網和現代智能技術所獲得的交通流量、醫療衛生健康、氣象水文、環境變化、社交娛樂互動、商業物流等方面的記錄,尤其是近年來基于互聯網的瀏覽、搜索引擎、上傳下載等行為產生的數據,成為大數據的主要代表。
4質量
由于傳統數據的收集方法遵循著嚴格的抽樣程序和變量設計要求,所以數據的信噪比較高、價值密度較高;而大數據的結構復雜,優質數據與劣質數據甚至垃圾數據混雜在一起,信噪比較低,價值密度較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”“降維”,是大數據應用中亟待解決的難題。
5時效性
傳統數據的收集和清理的時間較長、處理速度較慢、時效性不強。多數傳統數據是靜態的截面數據,即使追蹤調查數據(Panel Data) 也至多是兩三年以后對同一期群的事后回溯性訪問;大數據的處理速度快,時效性高。大數據可以及時更新、及時變化、及時追蹤。這是大數據挖掘區別于傳統數據挖掘最顯著的一個特征。
6分析方法與邏輯
傳統的社會科學特別是社會學的定量分析首先需要根據擬研究的問題和對話的理論模型提出假設,并設計基于假設的待檢驗模型,進而運用統計模型分析數據證實或證偽假設;而大數據方法是通過對海量的數據進行分析,尋找變量之間的相關關系,而后建立模型。數據科學以海量的數據為研究對象,通過數據挖掘等手段來尋找海量數據中潛在的規律。它研究各個科學領域所遇到的具有共性的數據問題,通過對數據的變化規律的研究來實現對科學問題的解答。這也就意味著通過大數據方法建立的模型并不一定反映必然規律,而是在非實驗控制的條件下,一系列影響因素綜合作用的結果。雖然這種模型具有模糊性與偶然性,卻可以在一定程度上預測現象發展的趨勢。大數據分析重點呈現相關關系而非因果關系,是描述性研究而非解釋性研究。
傳統定量研究目的是為變量的變異性提供因果解釋,用其他變量解釋所要研究的變量的變異性。舍恩伯格等認為,大數據研究的“不是因果關系,而是相關關系”;而應用大數據,尤其在商業領域,其目的是銷售商品,這種情況下商家只需要了解用戶的行為與銷售額之間的相關關系,并以此作為決策依據,向用戶推薦可能需要的商品、指導商業活動,而不需要為這種相關性作出解釋。分析兩個變量關系時,僅僅止步于相關關系,即使這個相關關系是虛假關系,或者是通過其他變量而形成的相互關聯。這并不是說大數據不能為因果解釋提供數據基礎,而是說因為在一些大數據廣泛應用的領域,人們并不探究因果,而是利用大數據描述現象,預測現象發展的趨勢,為決策提供依據。
二、大數據時代社會學研究的機遇
毋庸置疑,大數據時代的海量數據及其分析方法為社會學學科的發展提供了難得的機遇,至少在以下三個方面可以促進社會學學科的發展。
第一,為探索未知的社會現象提供了可能性,有可能產生新的社會學分支學科。按照研究的目標,社會學研究可以分為探索性研究、描述性研究和解釋性研究。大多數社會學研究都要探討某個新的議題,并提供對該議題的初步認識,對新的社會現象有一個初步的了解。探索性研究有三個目的:滿足研究者的好奇心和對某事物、現象更加深入了解的欲望;探討對某議題進行系統、精致研究的可行性;發展對后續研究中需要使用的方法。
大數據時代為社會學研究者提供了過去沒有辦法搜集的社會成員參與社會活動的動態海量社會數據、資料和信息。利用這些海量數據和數據挖掘技術,社會學研究者可以深入觀察和分析人類社會的復雜行為模式。羅瑋、羅教講認為,大數據時代為“新計算社會學”的產生創造了條件。陳云松認為,以大數據為基礎的詞匯“基因”序列分析可以催生“社會組學”。
筆者認為,以海量數據和創新的分析方法為基礎,完全有可能產生或創立與以小數據為基礎的傳統社會學迥異的“新社會學”。一些應用性很強的分支學科,如人口社會學、社會分層與社會流動、經濟社會學、發展社會學、消費社會學、科學社會學、社會心理學、城市社會學、農村社會學、犯罪社會學、家庭社會學、青少年社會學老年社會學、醫學社會學、生活方式社會學等由于大數據挖掘技術和分析方法的應用也將迎來巨大的發展空間。
第二,為全面地描述社會現象、認識社會發展的規律、預測社會發展的趨勢提供了新的機會。描述性研究是社會學研究者將觀察到的社會物或現象描述出來,精確地測量并報告研究總體或現象的特征。傳統的社會學定量研究為調查某一社會現象在研究總體中的情況,在抽樣框中隨機抽取一定比例的樣本,通過描述和統計等一系列方法,得到樣本之中不同變量間的關系,并以此為依據推論總體之中這些變量之間的狀況。
而以大數據為經驗材料的研究不涉及隨機抽樣的問題,而是將全部研究總體納入到分析的框架內,得出的變量之間的關系也無需參數檢驗,而是直接用于反映總體趨勢。換言之,大數據的樣本數趨近于總體,為全面、系統地描述社會現象提供了最大的可能性。
例如,2018年1月中國互聯網信息中心發布的《第41次中國互聯網絡發展狀況統計報告》顯示,在網民的互聯網應用分類中,關于即時通信、搜索引擎、網絡新聞、網絡視頻、網絡音樂、網上支付、網上購物、網絡游戲、網上銀行、網絡文學、旅行預訂、電子郵件、互聯網理財、網上外賣、地圖查詢、在線教育、網約專車/出租車/快車、網絡直播、共享單車等分類應用的統計,并不是將用戶做隨機抽樣形成樣本,然后調查他們在每個單項應用上的使用頻率,而是直接將7.72億網民這一總體作為分析的對象,描述總體的互聯網應用的使用頻率并預測未來發展的趨勢。
通過分析占全國人口總數55.53%的網民總體互聯網行為變化的大數據,為預測整個中國網民的社會結構、就業結構、消費結構、互動結構及行為結構的變遷提供了得天獨厚的便利,這在大數據時代以前是不可想象的。
第三,大數據為公共政策與社會政策的制定和完善提供了數據基礎。大數據為國家治理能力現代化、打造智能型政府和智能型城市、建立人類命運共同體等國家重大戰略的實施提供了數據支撐和決策依據。社會學作為一門應用性社會科學,對新時代國家重大戰略的實施和完善獻計獻策、貢獻力量是其重要的社會使命。
大數據為社會學研究者提供了產業、消費、教育、就業、收入、社會保障、貧困、醫療衛生、環境生態、社會矛盾、社會治理等方面的海量動態數據,這些數據為科學地評估國家治理能力建設、智能性政府和智能型城市建設中的短板和弱項奠定了基礎,而接近30ZB的全球數據為我國及時調整“一帶一路”倡議和人類命運共同體構建的走向提供了科學依據和數據基礎。尤其需要指出的是,部分省市運用大數據的技術與方法,建立社區事務受理中心的嘗試已經取得了良好的成效。比如上海市靜安區臨汾路街道社區事務受理中心的綜合服務管理系統,實現了辦事流程全公開、辦事過程全紀錄、辦事數據全采集、辦事結果全應用的“四全”。
通過對社區事務受理中心收集的數據進行實時采集、動態采集,建立數據模塊,進行績效考核,提升了事務受理中心的辦事效率,節省了居民的辦事時間,提高了居民的滿意度。將公安系統的基礎性數據、各級政府條線的數據、受理中心沉淀下來的數據、街道干部和社會工作者到居民家中走訪采集的數據相互整合,與上海市大數據中心合作開展精準民生服務工作,將碎片化的幫扶, 變成總體整合以后的精準扶貧政策。
上海市從2018 年3 月起, 全市各街鎮(鄉) 的220 個社區事務受理服務中心全面實施全市通辦”,包括敬老卡申領和發放、生育保險待遇申領、居住證掛失等161項事務。通過建立全市統一的信息交互平臺,政府部門優化、簡化業務辦理流程,打破居民群眾辦事過程中存在的戶籍地或居住地限制,讓居民群眾在全市任何一個社區事務受理服務中心均能申請辦理事項,從而減少奔波,實現就近辦事。這是大數據應用于基層社會治理的又一成功案例。
三、大數據時代社會學研究面臨的挑戰
在企業、政府和社會各界紛紛為大數據時代的到來而歡欣鼓舞之際,我們還更需要進行更為深入的理性思考。我們認為,在社會學方法論和研究方法上如何突破,仍然是亟待社會學家解決的首要問題。大數據挖掘技術和分析方法給社會學學科發展帶來難得的歷史機遇的同時,也給社會學研究帶來了嚴峻的挑戰。
1樣本偏差問題與傳統的社會學定量分析相比,大數據的樣本從數量上更接近于總體,但是這個總體是有偏差的、有局限性的。到2017 年底,中國有7.72 億網民,而中國總人口13.9 億,那么通過互聯網抓取個人信息的方式來獲得的大數據依然無法涵蓋6.18 億非網民。在實際的研究中,研究者往往僅依靠一個或幾個門戶網站的后臺數據作為分析資料,那么這種大數據僅是使用該網站用戶的數據,不能將分析結果推論到其他網民,更不能推論到全體國民。
因此,社會學研究者應該明白,大數據中的總體是有局限、有偏差的總體,其他難以通過大數據方法抓取的個體并未作為研究對象包含在總體中。因此,對于研究結論的推論也只能在有限總體的范圍內才可能是有效的或可靠的;此外,互聯網網民的個人活躍度存在很大差異,其活動或痕跡被抓取的概率也不同,因此互聯網大數據的形成既不是抽樣,也遠非隨機,而是具有極大的偶然性。
例如,英國廣播公司在2011 年通過互聯網上自助填寫問卷的形式進行了一項英國階層調查,并以此為根據將英國社會分為7個階層。該調查共有161458人參加,樣本規模遠超傳統的問卷調查,有的學者將該調查所獲得的數據界定為大數據,并認為該調查由被研究者填寫,可以擺脫以往的大數據方法多是對行為進行觀察而忽視個人主觀性的方法論困境,然而網絡調查的樣本僅僅是在問卷投放網絡的一段時間內發現并有意愿填寫問卷的網民,如果一個網民在這一時間并不活躍,那么他將不被納入調查的樣本之中,因此通過該網絡調查得出的結果只是一種偶然關聯,一種統計學上的相關,而不具有任何推論價值。
2重要變量的缺失問題
雖然一些網站的后臺數據也能提供網民的性別、年齡、職業、收入、家庭結構、居住地、出生地等社會人口信息,但是這些自我填報沒有經過實名認證的信息存在著很大的水分甚至虛假成分。互聯網區別于現實世界的一個重要特征是其虛擬性。網絡世界網民身份具有不可靠性。作為社會學定量分析最關鍵的這些分類信息如果缺失或虛假的話,以此數據分析所得結論的可靠性就會大打折扣。
3相關關系解釋性不強的問題
依據相關關系而非因果關系分析所獲得的結論在解釋性研究中的效度不強。如前所述,多數大數據的統計分析僅僅止步于相關關系。但是,社會學家很清楚,相關關系不一定是因果關系。熟悉統計學的學者都知道,當數據的樣本量達到一定程度以后(更不用說大數據這樣的海量樣本),任何兩個根本不相關的變量之間都可能存在很顯著的相關性(很可能是虛假相關),諸如美國
沃爾瑪超市數據所揭示的季節性風暴到來時蛋撻與颶風用品銷售量的之間統計相關關系、西班牙大選投票數據所發現的天氣狀況不佳與保守黨得票率之間統計相關關系的虛假性。
由于缺乏更多的控制變量可以應用,大數據的社會學統計分析目前基本上還沒有運用中高級統計模型的因果分析的成果。實際上,除了相關關系分析之外,多元回歸模型、中介模型、多層次對數模型、曲線模型等因果模型,在解釋性研究中發揮著關鍵的作用。如何運用因果模型進行大數據的社會分析還需要進一步的研究。
4各種大數據的整合還是一個難題
雖然公共數據的開放與共享正在成為一種趨勢,互聯網門戶網站和互聯網公司所開放的數據還相當粗放和有限,多數開放數據是研究者利用爬蟲技術從網站上抓取的未經加工、篩選的原始數據,政府職能部門、公立機構(如銀行和金融機構、通訊公司、醫療衛生機構) 和非公立部門(如私營互聯網公司和大數據公司)、社會組織等掌握的數據的開放程度也非常低。在我國政府將大數據產業作為一種基礎性戰略資源重點支持的宏觀背景下,如果各部門都將自己擁有的壟斷性大數據作為“私有資源”的話,那么勢必會形成“數據孤島”現象。不僅會造成現有數據資源的浪費,而且還會造成同類數據挖掘和分析的重復投入。
因此,需要國家有關部門制定公共數據低償使用甚至免費開放的政策,首先從政府部門和國有企業、體制內社會組織做起。公共大數據的開放共享是推動大數據分析服務于包括社會學學科在內的自然科學和社會科學繁榮的必要的先決條美國社會學家瑞澤爾認為,社會學的研究范式可以分為社會事實范式、社會定義范式和社會行為范式。
從問題出發形成理論框架、研究假設、經過觀察收集資料、再經過經驗概括、修正或創新理論的實證社會學研究邏輯,無論是定量研究采用的從假設、觀察到接受或拒絕假設的演繹推理法,還是質性研究運用的從觀察開始、尋找模式或規律到獲得結論的歸納演繹法,這已成為實證社會學家的共識。我們認為,大數據分析短期內不可能顛覆基于小數據的實證社會學研究范式和研究邏輯,只能對其進行補充、完善和修正,不可能從根本上替代它。
國內外關于大數據科學領域的應用目前主要集中于資料的收集和儲存方面,對于用什么方法分析這些海量數據,用什么理論解釋互聯網世界的社會秩序、社會規范、社會角色、社會結構、社會互動、社會分層與社會不平等這些社會學的經典問題,目前國內外還都處在同一起跑線上。
因此,通過我國社會學家與其他社會科學家、自然科學工作者特別是計算機專家、統計學專家的協同創新和聯合攻關,有望提出具有獨創性和原創性的分析方法、研究范式、理論體系和國際標準,在全球范圍內領跑。