計算社會學:數據時代的社會研究
- 2019-06-18 11:10:00
- admin 轉貼
這本書源于2005年在哥倫比亞大學一個地下室中發生的事情。那時,我還是一名研究生,正在為最終的畢業論文做一項在線實驗。有關這項實驗的學術部分我將在第4章進行介紹,但現在,我將告訴你們一件我的畢業論文或其他任何論文都未涉及的事情。這件事從根本上改變了我對研究的看法。一天早晨,當我來到位于地下室的工作室時,我發現一夜之間竟有約100個來自巴西的人參與了我的實驗。這一簡單的經歷對我產生了深遠的影響。
當時,我的幾個朋友正醉心于傳統的實驗室實驗。我知道他們必須很費心地有償召集并指導人們來參與實驗,如果一天能有10個人完成實驗,就算是不錯的進展了。但對我的在線實驗來說,我在睡覺的同時,就有100個人參與了實驗。也許,一邊睡覺一邊做研究聽起來美好得令人難以置信,但這是事實。技術的變化,尤其是技術從模擬時代到數字時代的轉變,意味著我們可以用新的方式搜集和分析社會數據。這本書就是關于如何利用這些新方式開展社會研究的。
這本書是寫給那些“想研究更多數據科學的社會科學家”和“想研究更多社會科學的數據科學家”以及對這兩個領域的結合感興趣的人的。因此,這本書的目標受眾自然就不僅限于學生和教授了。盡管我目前在普林斯頓大學任職,但之前也在政府部門(美國人口調查局和技術產業領域的微軟研究院)工作過,因此我知道,在大學之外同樣存在著很多令人興奮的研究。因此,只要你覺得自己正在做的是社會研究,那么無論在何處就職或使用何種技術,你都可以參閱此書。
你可能已經注意到了,這本書的語言風格和許多其他的學術著作稍有不同。這其實是我特意做的一個改變。這本書的部分內容源于我從2007年起在普林斯頓大學的社會學系帶領的一個“計算社會學”(Computational Social Science)研究生研討班,因此我希望它能反
映這個研討班的一些活力和激情。具體而言,我希望這本書能夠具備以下三個特點:有幫助的、面向未來的以及樂觀的。
有幫助的:我的目標是寫一本對你們有幫助的書。因此,我將以坦誠的態度、非正式的寫作風格,通過實例闡述我的觀點。我最想傳達的是一種特定的思考社會研究的方式,而經驗告訴我,傳達這一思考方式的最好的方法就是采取非正式的寫作風格并列舉大量例子。此外,在本書的參考文獻中,有一個部分叫“拓展閱讀”,它旨在幫你過渡到有關我所介紹的多個主題的更加詳細、更加專業的內容上。最后,我希望此書能對你們自己開展研究以及評估別人的研究有所幫助。
面向未來的:我希望這本書能幫助你利用現有的以及未來將出現的數字系統開展社會研究。我是從2004年開始做這類研究的,這期間數字系統發生了諸多變化,我堅信在你們的職業生涯中,你們也會感受到數字系統的許多變化。
因此,要想讓這本書“以不變應萬變”,就要做到“抽象”。例如,這本書不會教你如何使用現有的推特應用程序界面(Twitter API),相反,它會教你如何受益于大數據資源(第2章)。這本書不會詳細告訴你如何利用亞馬遜土耳其機器人(Amazon Mechanical Turk,以下簡稱機器人MTurk)開展實驗步驟,相反,它將教你如何設計和解讀依賴于數字時代基礎設施的實驗(第4章)。通過采用這種抽象化的手法,我希望這本書能夠成為一本主題適時、經得起時間考驗的書。
樂觀的:本書涉及兩個群體——社會科學家和數據科學家,他們有著截然不同的背景和興趣。除了書中將要介紹的科學方面的差異以外,我還發現,這兩個群體看待事物的態度也是不同的。
數據科學家一般而言是滿懷希望的,而社會科學家一般而言是更具批判性的。也就是說,同樣是半杯水,數據科學家看到的是還有半杯水,而社會科學家看到的則是杯子有一半已經空了。在本書中,我將采取數據科學家的樂觀態度。因此,在描述相關實例時,我將告訴你們在我看來這些例子的可取之處。
當然,鑒于沒有研究是完美的,我也會指出它們的問題所在,但我會盡力用樂觀積極的方式指出。我不會為批判而批判,我的批判是為了能讓你們設計出更好的研究。
我們仍處于數字時代社會研究的早期階段,但我已經發現了一些普遍存在的誤解,它們的普遍程度讓我覺得有必要在前言中對其進行說明。就數據科學家而言,我發現他們有兩個常見的誤解。第一個是認為數據越多越有利于解決問題。但對社會研究來說,我的經驗告訴我并不是這樣的。事實上,對社會研究來說,好的數據似乎要比更多的數據更有幫助。
第二個是數據科學家通常認為社會科學只不過是一堆圍繞常識的花言巧語罷了。當然,作為一名社會科學家,更確切地說是社會學家,我不同意這樣的觀點。聰明的人長期以來一直在努力理解人類的行為,因此忽視這一努力所取得的成果似乎是不明智的。我希望通過這本書,以一種易于理解的方式和你們分享其中的一些成果。
就社會科學家而言,我發現他們也有兩個常見的誤解。第一個是有些社會科學家會因為少數不真實的數據而徹底否定使用數字時代的工具開展社會研究這一觀念。如果你正在讀這本書,那你可能已經讀過許多平庸地或錯誤地(或兩種方式都有)使用社交媒體數據的論文。我也讀過。
但是如果因為這些論文就得出結論,說數字時代的社會研究都是不好的,這將是一個嚴重的錯誤。事實上,你可能也讀過許多平庸地或錯誤地使用調查數據的論文,但你并沒有因此而否定所有使用調查數據的論文。這是因為你知道,也有使用調查數據并且做得很不錯的研究。而我將通過這本書告訴你們,使用數字時代的工具并且做得很不錯的研究也是有的。
我所發現的社會科學家的第二個常見誤解是容易將現在和未來混淆。當我們對數字時代的社會研究,即我在本書中將探討的研究,進行評估時,思考以下兩個截然不同的問題至關重要:“這類研究現在做得怎么樣”以及“這類研究將來會做得怎么樣”。研究人員會被訓練來回答第一個問題,但對這本書而言,我認為更重要的是第二個問題。也就是說,盡管數字時代的社會研究尚未做出巨大的、改變范式的貢獻,但數字時代社會研究的進步速度快得驚人。因此,相比于其目前的發展水平,它的變化速度更讓我感到興奮不已。
盡管上一段似乎是在告訴你們,數字時代的社會研究可能會在未來的某個時間變得相當成功,但我的目標并不是向你們推銷任何特定類型的研究。我個人并未持有推特(Twitter)、臉譜網(Facebook)、谷歌(Google)、微軟(Microsoft)、蘋果(Apple)或其他任何科技公司的股份。
但是,為了做到充分披露,我應該告訴你們我曾在微軟、谷歌和臉譜網工作過或是接受過其研究經費贊助。因此,在整本書中,我的目標是讓自己做一個可信的敘述者,告訴你們所有可能的令人興奮不已的新事物,同時引導你們避開一些我曾看到有人掉進去的陷阱(有的我自己也曾掉進去過)。
社會科學和數據科學的交叉學科有時會被稱為“計算社會學”。有些人認為這是一個技術領域,但這本書并不是傳統意義上的技術圖書。例如,這本書的正文中并沒有公式。之所以選擇這樣的方式,是因為我想呈現對數字時代社會研究的一個全面的看法,其中包括大數據資源、調查、實驗、大規模協作和道德倫理。
但事實證明,涵蓋所有這些主題并提供每個主題中詳細的技術細節是不可能的。相反,我會在本書參考文獻中的“拓展閱讀”里推薦更多的技術資料。換句話說,這本書不是為了教你如何做某種特定的計算,而是為了改變你對社會研究的思考方式而寫的。