大數據觀世 | 第6期:大數據何以重構社會科學
- 2020-06-05 10:16:00
- admin 原創
編者按:
大數據的興起已經開始逐步影響社會科學發展?!洞髷祿我灾貥嬌鐣茖W》一文基于最新的社會科學大數據研究和文獻,從理論范式、研究方法和研究實踐三個方面詳細闡釋了大數據重構社會科學的八個維度:重繪學術圖景、延伸經典學說、豐富學科目標、促進學科融合、提升學科應用、緩解方法分歧、優化變量測量、增加展示形式。該文是國內對社會科學大數據研究的首次系統梳理嘗試。
大數據何以重構社會科學
作者 | 陳云松、吳青熹、黃超
原載 | 《新疆師范大學學報》2015年第3期
作為資本勞動力和自然資源之外的第四種生產要素,大數據一般是指在數量(Volume)、類型(Variety)、速度(Velocity)和價值(Value)等方面超過傳統社會科學應用規模的海量數據資料。早在 2009 年,哈佛大學的加里·金就預言隨著大數據的出現和使用,整個社會科學研究的實證基礎將會出現重大變化,甚至會加速定性與定量研究的大融合。
雖然大數據的重要性已然得到人文社科領域學者的普遍認同,但學界對大數據的理論探討大多還停留在對其概念范疇、獲取渠道、樣本代表性以及測量可靠性等基本問題的辨析上,基于大數據的實證研究相對較少。已有實證研究基本都是通過數據挖掘和文本分析技術,發掘出潛藏在海量數據背后有意義的規律或信息,從而實現對社會現象和群體行為未來趨勢的判斷和預測,但這些研究大多集中在經濟、金融領域,社科理論界其他領域尚未出現對大數據整體的推廣和應用。本文認為,在信息技術急速發展的今天,大數據必將消解傳統社會科學的理論和實證研究基礎,重構人文社科的理論范式和研究方法,加速各學科之間的相互融合。
一.理論范式的重構
(一)重繪學術圖景
在社會科學發展史上,重大理論問題往往能引發長期的學術爭論。但隨著實證證據的豐富和社會熱點的轉移,爭論往往會在新的證據出現之前告一段落。而大數據的出現,可能為經典的理論之辨提供新的實證來源,進而有望為社科理論界重新描繪新的學術圖景。例如,市場和政府是現代社會運行中最本質的兩大機制性力量。一個世紀以來,無論是美國的新自由主義市場經濟政策、蘇聯和東歐國家的轉制、中國和越南等中央計劃經濟體制國家的改革,還是各國政府在面對全球性、周期性經濟大蕭條時對市場所采取的宏觀刺激計劃和干預政策,都可以視為政府對其在市場經濟運行中應處地位及其影響范圍的調整。而市場和政府之爭,也恰恰是20 世紀哈耶克和凱恩斯“思想制高點”之爭的全部意涵。戰后幾十年來,政府和市場在社會發展過程中此消彼長、階段性主導經濟社會發展進程的事實表明當今世界依然沒有走出哈耶克與凱恩斯理論論戰所界定的理論范圍。以至于諾貝爾經濟學獎獲得者英國經濟學家約翰·希克斯(John Hicks)在1972 年專門著文探討“到底誰是對的?凱恩斯還是哈耶克?”這就是著名的“??怂怪畣枴?。
“??怂怪畣枴笔情L期以來以凱恩斯主義為代表的政府計劃體制和以哈耶克思想為代表的市場競爭機制二元對立關系的直觀反映,凱恩斯認為自由市場不能解決因消費需求和投資需求不足導致的生產過剩危機。政府應該運用行政權力自上而下直接干預和參與經濟過程。即通過擴大投資、刺激消費的方式對經濟進行干預。對此,哈耶克指出,信息瞬息萬變,而人們所能掌握的知識和信息是分立和有限的,中央計劃的制定者無法了解經濟運行中每個階段的最終均衡狀態,更無法建立全知全能式的生產、決策和分配組織。因此,對社會經濟秩序進行整體設計和建構干預的做法是人們對自己有限理性的高估和致命的自負。計劃經濟不僅會限制個人自由、阻礙財富生產,還會造成社會貧困和集權主義政府的興起,是一條通往奴役之路。對國家而言,只有市場調節才是最佳的資源配置方式。值得注意的是,無論是希克斯、凱恩斯還是哈耶克,他們都只是基于 20 世紀早中期的經濟發展經驗,試圖在市場和政府間做出非此即彼的選擇,而未曾想到還可以有第三條道路,即建立在信息充分交換基礎上的政府有限調控,大數據的出現會為經典的政府與市場之爭注入新的元素。
建立在大數據基礎上的計劃調控并非天方夜譚,早在 20 世紀 70 年代,智利政府的“協同控制工程”( Project Cybersyn)就試圖用大數據去統籌管理國民經濟,政府通過打造一個由電報機組成的網絡系統,幫助管理者實時發現、解決需要立即處理的問題和模擬每一次決策的長期后果。在機器的幫助下,智利政府成功地解決了卡車司機大罷工導致的食品短缺危機。該工程的失敗主要是難以解決落后的技術水平、社會認知和超前的管理思想間的矛盾。40年后的今天,隨著現代信息技術的飛速進步,分析和處理大數據所需的數據挖掘技術及設備條件已日臻成熟。同時,大數據對市場運行中的信息捕捉也已達到了空前的廣度和精度,并被廣泛應用于廣告投放、信息預測和商業決策。這一變化的直接后果是大大降低了傳統社會科學所強調的因政府與市場間信息不對稱而導致的居高不下的計劃錯誤率,使得政府通過大數據來掌握宏觀經濟運行狀況并進行合理的計劃調控的前景出現了更多的曙光。可以說,大數據為凱恩斯主義提供了新的政策工具,同時也為化解“希克斯之問”提供了重要的新的實證來源。
(二)延伸經典學說
雖然社會科學理論的流派和體系眾多,但它們都可以溯源到少數具有典范性、啟發性和詮釋意義的概念、假說和理論,這些經典學說通常立足于高遠的宏觀層面去理解和描繪社會結構及其變遷的歷史,具有更高的概括能力和更寬的輻射面。然而,宏大理論卻難以解釋經驗的現實問題。由于理論的宏觀性和復雜性,傳統的截面數據、面板數據等抽樣分析方法,無法在經驗層面上對這些理論進行檢驗,且囿于傳統的資料采集方式,研究者所能獲得的經驗材料,無論在時間還是空間維度上都是有限的。因此,一直以來,要想使用經典學說指導經驗研究,只能在其中不斷增加結構性因素以降低理論層次,這使得經典理論的影響力逐漸式微。以社會學界為例,自 20 世紀中期以來,理論界便不再由宏大敘事主導,目前大部分研究者的興趣都集中在 70年代之后興起的弱關系、結構洞等理論上,隨著時間的推移,大理論的空間越來越小,社會學界已經開始進入了某種“后大理論”時代。
大數據在經典理論和經驗研究間架起了一座橋梁,使得學界得以重新審視和延伸經典理論,并使驗證和拓展宏大敘事成為可能。這是因為大數據能夠以其超越傳統調查數據的樣本量和時空跨度,為研究者提供前所未有的海量數據、資料和信息,從而幫助研究者從過程性的歷史視角來審視和驗證經典的理論問題。以社會科學領域經典的社會分層理論為例,基于抽樣調查數據的經驗研究表明,主觀社會地位既會受客觀社會地位以及相對參照群體的決定性影響,也會受經濟不平等的重要影響,社會經濟不平等程度越高,整個社會對于不平等的感知越強,人們的階層意識就會越明顯。但用以支撐已有實證研究的傳統數據缺乏大歷史和大空間的跨度,這使得傳統數據對宏大理論的解釋和驗證總是停留在某一截面上,常給人以單薄之感。而大數據的出現,可以為經典理論的驗證進行補充,甚至帶來更多的發現。例如在一項基于谷歌圖書 2013 版語料庫(811 萬種書籍、8613 億詞匯)的大數據研究中,學者通過計算階級的相關詞匯在美國書籍中近 100年來的出現頻率來測量美國公眾對階層的關注程度,并在此基礎上對階層關注度和美國社會百年失業率、通貨膨脹、基尼系數等指標進行格蘭杰時間序列分析。研究發現,在市場經濟發達的美國,代表通貨膨脹率和失業率之和的“經濟悲慘指數”影響著階層關注度,而基尼系數卻沒有顯著的統計影響。該發現揭示了經濟不平等對階層意識的作用很可能存在“閥域效應”,只有當不平等高于一定的閥值時才會對階層意識產生作用,而不平等低于閥值時是經濟景氣程度在影響著階層關注度。用跨度百年的數據和以前無法獲得的階層關注度指標檢驗階層理論,這既是研究方法上的突破,也是對階級和階層理論的最新闡釋和補充。可見,大數據時代,經典理論將有可能實現“落地發展”,并不斷被歷史的、結構性的情境所檢驗和延伸,呈現出更強的生命力。
二.學科范式的重構
(一)豐富學科目標
挖掘因果機制是科學研究的基本任務,也是科學知識積累和學科建設的核心。傳統社會科學尤其是定量分析致力于進行因果推斷,提供機制性解釋,但由于社會人的異質性,基于非實驗數據的定量分析很難避免諸如遺漏變量,樣本偏誤,聯立性等內生性問題,這在很大程度上影響了因果推斷的有效性。目前,社會科學家試圖通過固定效應模型,傾向性匹配,工具變量等方法來規避內生性問題以改進因果推斷,但上述方法有賴于高質量的調查數據,而現實中高質量的調查數據通常難以獲得。大數據時代的到來,為我們呈現了一幅描述和相關分析重新崛起,因果推斷更加強化的雙贏學科目標新圖景,將會對社會科學學科目標起到階段性的豐富和拓展。
首先,基于信息技術興起的大數據擴展了人類的經驗范疇,使得簡單的統計描述就可以達到發現規律,展示規律的目的,這使得身處“后經典理論時代”的我們,有可能憑借大數據的啟示發現和提煉出重要的理論,跳出利用抽樣數據對傳統理論和假說進行證實或證偽的常規研究模式。其次,大數據的海量信息在時空上具有傳統抽樣數據無法比擬的廣度和深度,其全樣本的性質在某種程度上能夠避免因個人經驗有限性而導致的“例外”的干擾,因此,哪怕是基于大數據的簡單描述,都可能因為其數據的力量開闊啟發我們的思維。最后,依據大數據做出的預測較之傳統小數據要更為精確,可以為公共管理,經濟金融等各種行業提供有力的工具。因此,在大數據時代,社會科學尤其是定量社會科學可能在一定程度上出現一股“重返描述”和“重返相關分析”的潮流。
值得注意的是,原始大數據所呈現和涌現出來的規律,其實和質性分析一樣僅僅只是一種啟示,無法得到反事實的因果證實。比如,即使我們能夠搜集到五百年內全世界所有人的學歷和收入進行分析,卻依然無法解釋內生性的問題,此時,如果有可以直接進行回歸分析的定制大數據,就能夠很好地回答上述問題。本文認為,相關分析永遠是因果分析的基礎和起點,而因果分析才是社會科學的全部目的。從目前可用來做出社會科學分析的大數據看,它所能提供的變量尚屬有限,研究者很難通過大數據進行變量控制來做出傳統的因果推斷。但未來真正高質量的大數據,應該是以為社會科學研究所量身定制的形式出現。例如:在一項對教育回報的分析研究中,傳統數據可能缺乏對能力,智商,情商等精確的測量指標,但大數據時代,我們則可以憑借對醫學指標的整合來進行社會學分析,使用這種定制大數據,研究者可以做出非常好的因果分析。從這個角度,本文認為大數據的出現最終會在描述,相關分析的熱潮之后進一步向因果分析躍遷。
(二)促進學科融合
專業化是現代社會的鮮明特征,專業化程度的提高大大加強了人們認識自然和社會的能力,個人在越來越專業化的同時,也失去了對整體文化的了解和控制。對社會科學而言,學術分工的專業化進程大大提高了研究效率和學術領域內的交流評估質量,但也逐漸形成了各自為政的不足。研究者在獲得相當深度的同時,失去了對廣度的把握,不同學科間的邊界日益鮮明,且學科邊界間還產生了許多空白地帶。因此,與學科分化反向的學科融合必將在社會科學發展過程中周期性地出現。而人類知識譜系意義上的學科融合,其歷史頗為久遠,早在第一次和第二次世界大戰的末期,不同學科領域間已經發生了研究方法的借鑒和知識結構的重新建構。本文認為,大數據的出現將會促使第三次學科融合的興起,并將以數據為紐帶,從以下兩個向度推動學科融合:
第一,大數據將會向外推動社會科學與自然科學、尤其是計算機科學的融合。大數據之“大”,使得數據的性質發生了顯著變化,其數據的獲取和分析,往往需要有別于傳統社會科學訓練的方法和工具,這就為原本在計算機、人工智能和數理等領域具有專長的學者參與社會現象的分析甚至轉型為社會科學家提供了機會。近兩年來,發表在英語重要刊物上的基于谷歌圖書、維基百科和臉書、推特等大數據的語言學、經濟學研究論文,絕大多數都有計算機和自然科學家的參與著名的小世界理論提出者鄧肯·瓦茲原先就是美國海軍的物理學家。同時,大數據還為社會科學提供了全新的分析對象,提升了交叉學科在社會科學中的地位,揭示了諸如“計算社會科學”“應用計算科學”等學科在美國受追捧的原因。
第二,大數據將會向內推動社會科學學科間的交流和對話。長期以來,社會科學內部各學科間區隔明顯,顯著地表現在每個學科使用的數據和分析方法都自成體系,例如,經濟學分析多使用面板數據、時間序列數據,社會學分析多使用截面數據,人口學分析多使用普查數據等。盡管數據分析的方法和原理大同小異,但學科差異下的數據搜集和使用、各自為政,難以達成有效交流。大數據的出現將有助于改善這一對話困境。這主要是因為,大數據的獲得具有非學科性,大數據的搜集本身往往不是由學科定制,這種無心插柳的數據獲取具有一種跨學科的潛力。因此可以預見,越來越多的跨學科研究和交叉學科研究將會不斷涌現。
(三)提升學科應用
隨著信息革命的深入,大數據開始被廣泛地應用于經濟、金融、選舉、競賽、就業、高考、疾病、災害等諸領域進行趨勢預測。其邏輯基礎在于從大量征兆的累積中判斷社會現象發生質變的臨界點。大數據預測最常用的工具是谷歌趨勢(Google Trends),它通過揭示某個檢索關鍵詞 2004 年來每周被全球網民檢索的次數,以及這些檢索的來源地域,幫助我們發現該關鍵詞被人們所好奇、關心的程度及其分布規律,進而進行趨勢判斷。利用大數據對人類社會現象進行預測分析的最著名例子是谷歌趨勢對流行感冒的預測工具“谷歌流感趨勢”(GFT):2009 年,在H1N1 爆發幾周前,谷歌專家就已在《自然》雜志發表了利用 GFT 成功預測 H1N1 傳播范圍的論文,其預測精確度甚至可以到達州的層面。受這一研究的啟發,經濟學界也迅速啟動了對谷歌搜索數據的分析,并發現了網頁瀏覽、臉書帖子等文化載體內容和股票市場、勞動力市場失業率等經濟指標間穩健而可靠的關聯。比如英國沃里克大學在《美國國家科學院院刊》(PNAS)上發表的報告指出:2004-2012 年間,美國網民在谷歌搜索上輸入關鍵詞的變化與“標準普爾 500 指數”的波動呈相關關系,美國網民搜索商業類和政治類關鍵詞的頻率同時上升,“標準普爾 500 指數”往往會下跌。報告指出,如果根據大數據研究來制定投資策略,則收益率可以高達 297%,而同期采取簡單的買入持有策略只能獲得 3%的收益??梢?,較之傳統經濟學研究,大數據推斷改變市場的成效可謂立竿見影。
在傳播學方面,大數據分析技術的提升能夠同步提高新聞生產的廣泛潛入性和規模化處理信息的能力,并在調查性新聞、可視化敘事和應用三個層面驅動創新。目前,在新聞傳播界,以“悅讀體驗 + 內容定制 + 預測性報道”為特征的大數據新聞模式已初現端倪。大數據新聞的重要特點在于其個性化和精準性,既能基于讀者所在地和閱讀興趣的差異來進行新聞的個性化推薦和定制,提升讀者的閱讀體驗,又能基于社會表層現實和深層現實、受眾理性認知和感性認知對受眾行為和社會事件發展趨勢做出精準的預測。這無疑為政府科學決策、提高公共管理和服務水平提供了強有力的保證。
三、研究實踐的重構
(一)緩解方法分歧
定量研究和定性研究是兩種不同取向的研究范式,長期以來,不同學術偏好的研究者們從本體論、認識論和方法論等各方面對兩種范式的優點和局限進行了深刻剖析:一方面,作為一種科學化的中介手段,定量研究能夠實現社會現象的對象化、客體化;另一方面,定性研究能夠突破自然科學的限制,實現對行動主觀意義的把握。然而,在社會科學研究中,究竟是工具理性更重要還是價值理性更重要這一關鍵問題,論辯雙方并沒有達成一致的意見。通過量綱法在谷歌圖書 2013 版語料庫中計算 20 世紀 50 年代以來的“定量分析指數”,發現:總體上,定量研究和定性研究呈交替主導的狀態。從 20 世紀 50 年代到 80 年代,定性方法占據優勢,但 20 世紀 80 年代到 90 年代定量方法成為主,95 年左右又被定性方法超越,而從 2000 年左右至今,定量方法再次超越定性方法成為社會科學研究的主流。這也從側面反映了近 60 年來,試圖通過時間序列分析、網絡分析等定量技術分析文本,或通過敘事分析等定性方法分析調查資料等混合兩種研究范式的努力并未能有效彌合兩種范式的分歧。
從某種意義而言,大數據的使用使得定性和定量兩大陣營之間出現了一個混合地帶。大數據海量的數據規模和全新的數據特征使得定量研究與定性研究在資料獲得與分析方法方面逐步走向趨同,這在某種程度上緩解甚至重構了定量研究與定性研究間的關系。
對定性研究者而言,大數據可以通過海量規模的樣本直接發現和展示出社會現象的規律,既不需要控制變量來檢驗關聯,又能避免定性方法在案例選擇方面的樣本偏差。例如,金觀濤在《觀念史研究》一書中用計量史學的方法對 19 世紀末 20 世紀初的中國報刊文本進行分析,具體方法是將學界公認的 1830 年至 1930 年間那些與政治社會思想有關的報刊、檔案、文集中最有代表性的文獻進行數字化處理,然后通過詞頻統計和文本意義解讀歸納出世紀之交的觀念變遷。然而,由于作為分析對象的報刊本身既不能完全代表當時的報刊總體,又不能完全代表當時的社會思潮,因此,該研究結論的代表性廣遭詬病。顯然,如果作者在當時就能使用代表全樣本的大數據,那么其研究結果必然會具有很強的說服力。此外,大數據還可為定性研究提供全新又不過于復雜的研究思維,并讓檢索和數據描述等過去被定量研究者“壟斷”的方法為我所用。
對定量研究者而言,在探索變量間的因果關系所遭遇的最大困境便在于反事實問題。囿于研究倫理的限制,研究者無法同時得到個體在受干預和不受干預兩種情況下的狀態,這就使得尋找用于解決反事實問題的控制變量變得愈發困難,從而會導致統計推斷產生遺漏變量偏誤。目前可用的大數據并非專門為回歸分析而設計,不能解決反事實問題和遺漏變量偏誤,因此依據大數據很難進行傳統意義上的回歸分析和因果推斷,但由于數據的海量性甚至全樣本的性質,一旦把基于大數據的簡單關聯分析或時間序列分析結果與文獻中的傳統回歸分析進行比對,就能形成非常具有說服力的證據鏈。同時,大數據還拓展了定量研究者的關注視野,使他們的興趣點從傳統的定量分析轉向以往較少觸及的文化、心理等領域,并開始重新審視、描述在定量分析中的地位。本文認為,大數據定量分析方法一般可分為兩個層次:一是對大數據進行描述和可視化,二是從大數據中抽取出可以進行回歸分析的變量進行傳統的定量分析。前者能夠在最大程度上展現大時空的規律性,后者能夠將海量的數據結構化,并得出高質量的新數據。在實際操作中,這兩種方法都有助于我們進行因果推斷。
可以預見,以描述和簡單回歸分析為主要方法的大數據研究,將同時出現在定量和定性兩大陣營之中,并進一步縮小定性定量分析方法的鴻溝。
(二)優化變量測量
在對宏大概念進行測量的過程中,是否能尋找到相應的、有說服力的測量指標通常是實踐中的重點和難點,譬如上文提到的有關階層方面的研究,從谷歌圖書中提取了一個階級關注度的大數據指標,這為其對經濟不平等和階層意識論述增添了強大的說服力,但這種指標用過去小數據方法進行測量分析往往很難獲得。因此,在研究實踐中,應用大數據能夠優化變量的測量。
以陳云松、吳青熹、張翼近期完成的《近代中國城市的國際知名度及形成模式》的研究為例,該研究的一個重要貢獻就在于為國際知名度提供了一個大數據指標。在這項大數據研究中,作者首先以1700 年以來谷歌圖書的百萬英語書籍作為語料庫,以中國所有的直轄市、副省級以上城市、省會城市、各地級市以及港澳臺主要城市名稱作為關鍵詞,以這些關鍵詞在語料庫中每年出現的頻率高低為指標,在 300 年(公元 1700-2000 年)的時間跨度上展示和分析了城市國際知名度的百年變遷。在構建國際知名度測度的基礎上,作者進一步對中國城市國際知名度的形成渠道進行分析。由于近代以來,國際交通運輸技術的成本高昂,滿清政府在經濟、文化和外交上實行閉關鎖國政策,絕大多數中國城市與西方直接的人流、物流互動比較有限。因此,該研究提出中國城市群體國際知名度形成的“差異化”假說。具體而言,近代中國大陸城市的國際知名度,主要受到西方當時主要媒體(報紙)提及率的影響并可能互為因果,而對于香港、澳門和臺北等曾經有過較長殖民地歷史的中國城市而言,該關聯可能就不那么顯著——殖民統治使得這些城市直接成為中西文化對撞的窗口,從而具有與大陸城市不同的知名度獲得途徑。為檢驗這一假說,作者從《紐約時報》全文數據庫中提取了中國城市提及率指標,并將其與基于書籍大數據的國際知名度指標進行了跨度長達 150 年的時間序列分析,以觀察兩者的聯系在大陸城市和港澳臺三地之間有無差異。最后的發現表明,近代大陸城市的國際知名度和媒體提及率之間存在顯著的“格蘭杰因果關系”,且媒體提及率更多地影響知名度,而港澳臺城市的國際知名度和媒體提及率之間則沒有顯著的統計關聯。這表明近代以來中國城市國際知名度的獲得具有“直接”和“間接”兩種模式。大陸城市的國際傳播主要通過報刊媒體“間接”進入西方社會,而有過殖民地歷史的城市更多地以“直接”交流的方式來積累知名度。
該研究表明,除了傳統的抽樣數據可以用來對城市進行研究之外,大數據特別是書籍報刊大數據能夠為城市及文化傳播研究提供新的維度。特別是,通過從大數據中提取出傳統社會科學分析方法所能夠處理的關鍵性變量對大數據進行二次分析,得以充分發揮傳統定量分析方法的價值,達到對城市知名度形成渠道及其變化趨勢分析的目的??傮w上,大數據有助于重新強化“描述”在定量分析中的地位,也催生了利用大數據提取小數據然后進行定量分析的主要途徑。盡管該研究沒有進行傳統社會學定量模式里的回歸分析,但大數據中涌現出的社會現象本身已經為我們展示了饒有興味的歷史畫卷,并提供了一個橫跨社會學、文化學和城市學三個學科的大數據研究的有效案例。
(三)增加展示形式
除了數據采集、分析、挖掘和因果推斷外,在研究實踐中我們還必須有效地展示數據結果。一直以來,數據展示存在著千人一面、閱讀者難以理解的痼疾。而以簡潔、清晰的方式展示數據間的內在模式,使受眾對數據及其所代表的現象間的結構關系達到更深的理解,是大數據時代社會科學界的又一重大變革。
大數據時代的數據展示主要以可視化的方式進行。數據可視化是借助圖形、圖像處理、計算機視覺以及用戶界面等多種手段,通過表達、建模以及對立體、表面、屬性和動畫顯示等多種形式,從多角度把海量信息、概念視覺化,直接展示信息背后規律的方式。它能幫助受眾迅速了解研究者的觀點和思路,快速得到某一問題的答案,從而解決諸如信息過飽和、信息可靠性不足以及信息透明度缺失等問題。
數據可視化其實是知識的一種再生產方式,研究者以圖形、時間序列、地圖、流、矩陣、網絡、層次和信息圖形為基本元素,通過元素間的多種組合來表達自己對海量信息和數據的理解,進而解釋較為宏大和抽象的理論問題。例如:美國 Wanted Analytics公司通過提供的城市數據分布圖,展示了美國各地區工作數量、工資水平、人才供應、平均招聘時間以及招聘比例等信息,并把行業需求和地理位置相結合,總結了美國前 20 名大數據人才市場的信息,這是應用跨空間圖表研究文化和社會變遷的典型案例??梢暬⒉痪窒抻跀底?,概念也同樣適用:在對政治傾向圖譜的研究中,MacCandless試圖將各種政治傾向融入到圖表中,并展示其如何從政府滲透到社會、文化中,對家庭和個人產生影響,繼而又反過來影響政治形成一個循環。
可以預見:大數據時代,數據可視化必將徹底取代傳統的數據展示形式,充分展現數據的溫度與美感。
四.結語
大數據研究尚屬起步階段,但其對社會科學的沖擊與改變已經不容小覷。本文通過分析大數據時代對人文社科領域理論范式、學科范式和研究實踐帶來的改變,論證了我們對于大數據必將重構社會科學、加速學科融合的基本觀點。重要的是,大數據為我國社會科學發展提供了加速超越西方和形成中國特色、中國氣派的重要機遇。這是因為,大數據無論對于西方社會科學界還是對于中國社科界,都是一個全新的事物。只有迅速占據大數據的高地,才能在中西學術對話中占據主動。
目前,圍繞大數據在社會學科研究中的應用,國內社會科學界已經在初步形成一批研究中心。例如,在社會學研究方面,南京大學社會學院利用谷歌數字化圖書大數據和互聯網大數據,在學科發展、階級階層、文化傳播、城市發展等方向率先形成了一批實證研究成果。《社會學研究》等權威一流刊物也率先刊登了大數據的應用定量分析論文。新聞傳播學研究方面,中國人民大學新聞學院以互聯網傳播數據為分析基礎,對大數據在傳播學中的應用研究率先進行了探討。北京大學、清華大學、上海大學等相繼較早舉辦了國內社會科學界的大數據分析會議和培訓班次。盡管目前大數據仍然是一個新鮮事物,仍然存在討論得多、分析得少的狀況,但“星星之火、可以燎原”,我們有理由相信:隨著越來越多的學者開始意識到大數據的重要性并加入到大數據的研究隊伍中來,社會科學界必將迎來又一個學術的春天!
*為便于閱讀,刪減了參考文獻等注釋內容。
——————————————————————————————————————————————————————————
萌泰數據是社會科學領域知名數據服務商和科研教學工具廠商,面向社會科學教育實踐、學術研究和社會服務,提供一體化數據解決方案。目前旗下包括“銳研”和“智社”兩大子品牌。
“銳研”是萌泰數據旗下社會科學專題數據庫及科研服務平臺,旨在為學者和科研人員提供專題數據庫和科研數據采集與分析服務,以及各類社會調查研究方法工具支持。旗下產品包括五大特色數據庫、三大指數產品、六大社會調查研究工具以及智慧蜂眾包任務平臺等科研服務產品。
銳研產品矩陣
銳研中國:www.51diu.com
銳研專題數據平臺:www.ringdata.com
銳研中國官方微信公眾號
智社官方微信公眾號
Campbell中國聯盟官方微信公眾號