定量研究須直面因果判斷
- 2017-08-23 10:18:00
- 陳云松 范曉光 原創
近幾十年來,社會學定量分析方法取得巨大發展,但大量的社會學實證研究囿于研究設計、數據質量和模型設置,僅僅停留在統計回歸的描述階段,缺乏基于因果判斷的解釋能力。以謝宇、溫希普(Christopher Winship)、索布爾(Michael Sobel)、摩根(Steve Morgan)和莫維(Ted Mouw)等為代表的社會學家,強調社會學分析必須基于反事實因果關系框架,重視回歸分析中的模型設置問題;而以索倫森(Aage B. Srensen)、波東(Raymond Boudon)、埃爾斯特(Jon Elster)和赫斯特洛姆(Peter Hedstrom)為代表的學者,則強調把厘清社會機制、社會過程和統計推斷結合起來。雖然他們側重點各不相同,但都強調解釋性機制或因果推斷是社會學分析的目標。此外,對政策研究而言,也只有因果分析才能預測事件的發生條件并制定出干預措施中的控制手段。
當前主流定量社會科學研究領域中,因果關系的判定主要基于反事實框架。即一個影響因子或者干預對個體的因果效應,應是該個體在控制組和干預組中兩個可能的結果狀態之間的差異。如同“人不能兩次踏進同一條河流”一樣,個體的結果只能在一個組中被觀察到。這樣,對于該個體而言,干預結果與控制結果中必有其一是缺失數據。謝宇曾以大學教育為例說明該問題:在分析大學教育對于個體的收入是否有因果效應時,對一個上大學的學生,我們不可能獲得他不上大學的情況的數據。因此,社會學定量分析中只能用平均干預效應來替代,估算一組大學生(干預組)與一組非大學生(控制組)之間的平均收入差異。但替代的前提是,干預組和控制組必須在其他收入因素上是一致的,即兩組人的年齡、性別、家庭背景、智商、性格等等的平均值全部相同。一旦兩組之間在某個變量“E”的均值上不一致(例如性格,往往難以采集數據),且這個遺漏掉的變量本身和解釋變量又有關系,那么這樣估算出來的就是有偏差的,甚至是偽相關,因果判斷就無從談起。
回歸分析一般通過控制一系列變量,使兩個組別具有可比性。但是,總有些無法被觀察或學者沒有想到的變量,導致兩組之間不具有可比性。對回歸方程而言,這意味著解釋變量和遺漏誤差項出現相關,不能滿足高斯馬爾可夫定理,估計參數出現偏誤。在計量經濟學中,該問題被稱為內生性問題。由于絕大多數實證研究都是基于非實驗性數據,無法保證實驗組和控制組的相似性,因此所有基于調查數據的實證研究,無一例外都會受到內生性問題的困擾。而這主要源自一般性的遺漏變量偏誤(如無法測量的個人能力往往被方程遺漏)、自選擇偏誤(如分析高等教育的因果作用,但是否接受高等教育本身是個人選擇)、樣本選擇偏誤(如分析找熟人對于求職的因果作用,但找熟人求職的這類人本身可能具有某種特性)和聯立性偏誤(自變量和因變量之間有雙向關系)等多方面因素的影響。
社會學的研究旨趣在于弄清某種機制或得出因果關系,而非局限于描述自變量和因變量之間的統計相關,所以,內生性偏誤就應該成為社會學定量研究中必須直面的問題。盡管既有研究對反事實因果關系、模型識別策略的關注一直存在,但在大量的實證研究中,內生性問題往往被一筆帶過,甚至不加提及。國內學者王天夫和章奇等人對社會科學領域因果分析的基本概念進行了細致的回顧,但對和因果推斷緊密相關的內生性問題及其解決方案卻沒有進行深入探討。
社會學定量研究中,內生性問題的解決方法可以概括為四個方面。第一,解決遺漏變量偏誤。主要包括四種策略:一是利用非傳統數據作為遺漏變量的替代,以控制潛在的遺漏變量;二是依賴于變量在時間維度上的差異,運用固定效應模型控制時間固定的非觀測因素;三是利用組內策略,即用非時間性的組內差異來估計固定效應模型;四是使用工具變量。
第二,解決自選擇偏誤(是可以的)。最直觀的方法是使選擇行為不存在,因此隨機分配是解決此問題的最佳途徑,因為它可確保主解釋變量和未觀察因子之間沒有任何關聯性。解決自選擇偏誤的方法主要有三種:一是實驗或自然實驗。在社會互動研究中,外生性干擾(如自然實驗、政策介入或自然發生事件)可以用來建構排除限定(即工具變量)以幫助識別模型。二種是匹配法,也即傾向評分方法(PSM)。其理念是,用盡量相似的控制組成員和對照組成員來進行比較以減少偏誤。三是建立選擇過程模型。
第三,解決樣本選擇偏誤。被廣泛運用來解決樣本選擇問題的方法是赫克曼(James Heckman)的兩階段法。該方法的主要特點是簡明性。但該方法也存在二分因變量的誤用、計算反向Mills比率的難度,錯估標準誤差,以及真實模型的修正項與其他回歸量之間共線性等問題。
第四,解決聯立性偏誤。聯立性偏誤實際也可以看成是一種特殊的遺漏變量偏誤,因此工具變量方法顯然適用。近來研究常常采用外生性政策的干預或者對部分樣本的外生干擾來充當工具變量。另外,最新的文獻提出了“條件方差限定”的模型識別策略。其基本思想是:對一個既定的社會互動現象,個人結果的跨組別方差由三個因素所導致,即組群異質性方差、個體異質性方差與組群解釋變量方差。如果每個組群由大小不同的次級組群隨機組成,那么顯然對次級組群而言,上級組群和個體的異質性方差是一樣的,但它們各自的解釋變量方差卻不一樣。這樣,通過比較不同次級組群的解釋變量方差,就可以識別解釋變量的因果效應。
在借鑒前人研究和其他學科方法的基礎上,社會學研究加強對內生性問題的解決能力,主要有四種路徑。
第一,提高數據質量。無論是固定效應方程、匹配方法,還是工具變量分析等策略,都離不開高質量和豐富的調查數據。以“社會網”研究為例,以往個體的社會網數據收集僅有兩層數據——被訪者和被訪者的朋友。在今后的調查中,除以上信息外,還應該設法對“朋友”的配偶、父母和朋友的朋友進行數據收集,構成一個三層數據體系:被訪者(第一層)、被訪者的朋友(第二層)與被訪者的朋友的其他社會關系(第三層)。而這在本質上就為“朋友”提供了一個工具變量,即第三層作為第二層的工具變量。因為第三層變量顯然和第二層有關,但如果能確保第三層“朋友”的社會關系和被訪者不直接認識(比如,被訪者會聽說自己的朋友的某些社會關系人的信息),那么第三層變量就會僅僅通過影響第二層變量來影響第一層變量。
第二,對外生性數據的收集和使用。兄弟姐妹的數量、子女的性別、彩票號碼、河流數目、政府外在政策干預等都是外生的數據,能夠對社會資本研究中內生性問題的解決起到作用。特別是工具變量往往需要“靈感式”的邏輯推導,一些看似和本研究無關的變量,反而有可能成為解決內生性問題的奇兵。
第三,根據不同的數據條件,運用適當的模型。例如,如果獲得面板數據,則能理想地解決時間固定效應問題,在很大程度上提高因果推斷的可靠性。而較大的樣本,則可以考慮匹配方法,因為它只有在大樣本情況下才能獲得可靠的推斷。
第四,明確說明運用這些模型和識別方法所需要的假設。固定效應方程和傾向性評分匹配能夠部分解決內生性問題;工具變量以及自然實驗則可以在理論上全部解決內生性問題。但是,工具變量很難尋找,其外生性無法證明,且必須詳細討論弱工具變量和不合格工具變量的可能性;而實驗方法具有一定的局限性。此外,如果未對內生性問題
作者:陳云松 范曉光 單位:牛津大學納菲爾德學院社會學系; 浙江省社會科學院