學術研究 | 社會科學領域的大數據研究方法初探
- 2015-06-04 09:25:00
- 李軍 萌泰科技 原創
大數據研究就是"樣本等于總體"的思維方式,大數據對研究范疇時和空間的拓展,以及其所揭示的規律和相關關系,能夠極大地促進社會科學研究假設的提出
在社會科學領域,大數據可以用來做描述性研究,亦可以用來做分析性研究。正如南京大學社會學院陳云松老師所言,“大數據在社會科學領域拓展了研究范疇的時間和空間”。過去無法獲取或者需要花費很大代價才能獲取的數據,在今天變成可能或者更加容易。尤其是當下的大數據時代,數據變得無比巨量,而且伴隨巨量數據產生的大數據處理技術也快速發展,這使得利用大數據的研究思維成為可能,并越來越獲得社會科學界的認可和推崇。
其實,大數據研究并不是什么新的思維,近代統計學之父凱特勒(Quetelet)早在19 世紀二三十年代就從事過犯罪和富裕程度之間的大數據相關分析;著名社會學家涂爾干在1897 年的《自殺論》中將自殺者分門別類,試圖從他們的生活和自殺的機率間找出關聯性,這些都是典型的基于總體樣本的大數據分析思維,盡管那時的“大數據”的數據量相對較“小”。近幾年的大數據熱實際上是計算機信息技術發展,尤其是互聯網,移動互聯網,物聯網等技術的發展所催生出的一個概念或相關技術的總概括(本質上和云計算熱是一回事),大家所經常引用的大數據的4V(Volume, Variety,Velocity,Value)特征也是由IBM 提出的一個計算機科學領域的定義。
就社會科學研究方法層面,大數據研究就是"樣本等于總體(sample = population)"的思維方式,正如凱特勒和涂爾干所研究的一樣。這一研究方式,在近幾百年一直被人們所熟悉和使用,只是由于當時社會生產力的局限性,總體不太輕易被獲取。自18 世紀統計學層面的抽樣理論誕生后,社會科學的研究才獲得了極大發展,因此,這使得我們容易誤認為定量的社會科學研究似乎就等同于抽樣調查研究。仔細算來,這一歷史也不過就是二三百年。今天,隨著互聯網、移動互聯網、物聯網等信息技術的發展一方面產生了大量的數據,另一方面獲取和處理數據的成本更加低廉,技術更加先進,因此,我們突然發現:總體不再是遙不可及,如果我能獲得總體,為什么我還要抽樣?一下子,大數據突然之間成了所有社會科學領域的人們所共同關注的話題。
傳統的小數據研究方法基于抽樣理論,當前主要包括問卷法、訪談法等,而問卷法又包括電話問卷調查、移動面訪調查以及網絡問卷調查等三種主要形式。與小數據的抽樣相比,大數據強調的是全部樣本;與小數據的精確性相比,大數據允許存在一定范圍的不準確性;與小數據的因果關系相比,大數據通過關聯性尋求自然和社會的變化規律。因此,大數據研究方法不僅補充了科學研究的范式,甚至可能動搖社會科學的傳統根基,產生顛覆性的變革。
與單次抽樣調查以及長期跟蹤調查相比,大數據研究的樣本量更大,持續觀測的時間更長。即使跟蹤調查的時間可能延續很長,但其仍然是不連續的觀測。普查是一個特例,其研究的樣本是總體,但就觀測的時間而言,仍然是不連續的。
以下是大數據研究和小數據研究的對比。
但是,社會科學領域的大數據研究方法或研究思維仍存在一些局限性,就目前而言,大數據的研究方法仍在探索階段。
首先,大數據的思維方式本身就是誕生自統計學,它從來就是社會科學領域定量研究方法的一部分,過去就是,未來還是!
其次,大數據并不能囊括所有我們想要的數據(比如想法或直接態度),獲取和處理我們想要的數據也不是都很簡單和低成本(目前大部分數據掌握在少數巨頭手中,獲取有成本),無論是從經濟層面還是操作可行性層面,基于抽樣理論的小數據調研方式依然不可替代。
最后,大數據研究目前還僅停留在發現相關關系,對因果關系的解釋還需要進一步依賴于定性研究或其他研究手段。但是,僅有相關是不夠的。從哲學層面人類對世界的探索和真理的追求來看,大數據研究最終一定會走向因果分析。從這一方面講,大數據研究絕不是終極手段,最多只能算研究方法之一。
當然,今天我們在社會科學領域為什么如此重視大數據,“重提”大數據,我認為,是因為技術的發展使得大數據研究更為便捷,而大數據對研究范疇時間和空間的拓展,以及其所揭示的規律和相關關系,能夠極大地促進社會科學研究假設的提出,從而為因果關系的分析提供新的支撐,使得人們在追求真理的過程中,又多了一條康莊大道。