大數(shù)據(jù)觀世 | 第7期:基于裁判文書網(wǎng)的大數(shù)據(jù)法律研究
- 2020-06-29 10:14:00
- admin 原創(chuàng)
基于裁判文書網(wǎng)的大數(shù)據(jù)法律研究:反思與前瞻
文 | 左衛(wèi)民 王嬋媛原載 | 《華東政法大學(xué)學(xué)報(bào)》2020年第2期
引言
在大數(shù)據(jù)來臨的時(shí)代,實(shí)證法律研究路在何方是值得研究的問題。整體而言,實(shí)證法律研究是一種更多流行于域外的新型法學(xué)研究范式,以經(jīng)驗(yàn)性研究的樣態(tài)區(qū)別于純理論式的抽象觀點(diǎn)構(gòu)建。域外學(xué)者對實(shí)證研究方法論的探討及方法的實(shí)際運(yùn)用上都已相對成熟。透過美國實(shí)證法律研究會(huì)議[1]和實(shí)證法律研究期刊[2]的相關(guān)文章,可以看出其在研究中慣常使用全國范圍內(nèi)的抽樣數(shù)據(jù)或者與研究主題相關(guān)的全數(shù)據(jù),至少也是較大區(qū)域或范圍內(nèi)的局部數(shù)據(jù)或大樣本數(shù)據(jù)。在中國法學(xué)研究領(lǐng)域中,雖然目前基于演繹的法教義學(xué)方法仍然占據(jù)著主流地位,但實(shí)證研究這種新的法學(xué)范式近年來也得到較多接受,[3]專注于實(shí)證研究的出版物[4]已經(jīng)面世,以“中國法律實(shí)證研究年會(huì)”[5]、“法律實(shí)證研究國際學(xué)術(shù)會(huì)議”[6]為代表的實(shí)證研究學(xué)術(shù)會(huì)議也開始召開。然而,實(shí)證研究方法興起之初,全國范圍的、權(quán)威性的法律大數(shù)據(jù)尚未出現(xiàn),國內(nèi)研究者多傾向于自行收集特定范圍內(nèi)的小樣本數(shù)據(jù)作為研究材料。
隨著數(shù)據(jù)時(shí)代的到來,海量數(shù)據(jù)得以迅速生成并且可被獲取。在司法領(lǐng)域,得益于中國近年來對司法公開理念的大力貫徹,司法大數(shù)據(jù)這一新興的研究資源應(yīng)運(yùn)而生,異于傳統(tǒng)實(shí)證研究的實(shí)證研究新形式正在因法律大數(shù)據(jù)的出現(xiàn)而成為可能。中國特有的司法大數(shù)據(jù)主要來源于以裁判文書網(wǎng)為核心的司法公開平臺(tái)。最高人民法院(以下簡稱“最高法”)為充分保障當(dāng)事人和公眾的知情權(quán)、監(jiān)督權(quán),通過司法公開平臺(tái)對審判流程信息、執(zhí)行信息、庭審直播信息、裁判文書信息等數(shù)據(jù)進(jìn)行了較多公開。其中,裁判文書網(wǎng)所發(fā)布的海量裁判文書是對中國司法實(shí)踐全面貌、原始面貌最為具體和客觀的反映。
毋庸置疑,大數(shù)據(jù)的到來為中國實(shí)證法律研究提供了新的契機(jī),有可能推動(dòng)實(shí)證研究的跨越式發(fā)展。首先,大數(shù)據(jù)的可獲得性大大地豐富了實(shí)證研究的基礎(chǔ)資料,擴(kuò)展了研究主題的范圍和格局。其次,對大數(shù)據(jù)處理的技術(shù)需求也注定會(huì)推動(dòng)實(shí)證研究方法的革新,使其更加多元化、科學(xué)化。相應(yīng)地,大數(shù)據(jù)研究所得的研究結(jié)論也會(huì)更趨向精確和客觀。然而,目前基于裁判文書網(wǎng)的大數(shù)據(jù)法律研究在諸多方面還做得不夠完善,研究者需重視有關(guān)問題,積極尋找并及時(shí)采取對策。對此,筆者擬展開如下論述。
裁判文書網(wǎng):大數(shù)據(jù)源泉
中國法律大數(shù)據(jù)源自何時(shí)、何地是首先討論的問題。在真正可被稱為大數(shù)據(jù)的法律數(shù)據(jù)出現(xiàn)之前,傳統(tǒng)的法律數(shù)據(jù)主要是由官方統(tǒng)一收集、發(fā)布并最后呈現(xiàn)出數(shù)字化、結(jié)構(gòu)化形式的司法統(tǒng)計(jì)數(shù)據(jù),這包括了中央及地方司法機(jī)關(guān)、統(tǒng)計(jì)部門的工作報(bào)告、法律年鑒、統(tǒng)計(jì)年鑒等。對此,易斐斐等在統(tǒng)計(jì)整理了2014年法院主動(dòng)公開的國家和地方層面的司法統(tǒng)計(jì)數(shù)據(jù)公開情況后分析認(rèn)為,司法統(tǒng)計(jì)數(shù)據(jù)存在著“數(shù)據(jù)不完整、數(shù)據(jù)公開渠道零散、統(tǒng)計(jì)口徑不統(tǒng)一、數(shù)據(jù)公開不夠連貫及時(shí)等問題,導(dǎo)致公開的數(shù)據(jù)無法形成相互貫通、可以互相比較的數(shù)據(jù)網(wǎng)絡(luò)”。[7]除了上述不足外,司法統(tǒng)計(jì)數(shù)據(jù)對于開展數(shù)據(jù)研究的一大局限是其統(tǒng)計(jì)的基礎(chǔ)數(shù)據(jù)如各種司法文書從未整體性地向社會(huì)公開,因此公布的統(tǒng)計(jì)數(shù)據(jù)實(shí)則缺乏中觀、微觀的個(gè)案數(shù)據(jù)源支撐,研究者難以得知數(shù)據(jù)的具體生成過程,這使得這些官方統(tǒng)計(jì)結(jié)果往往只能被用作宏觀、粗略的趨勢分析。加之官方制作的數(shù)據(jù)不可避免地帶有一定的政治、社會(huì)治理及司法管理的考量,難以達(dá)到完全的客觀中立。因此,上述缺陷造就了官方結(jié)構(gòu)化數(shù)據(jù)與學(xué)術(shù)研究者所需的研究數(shù)據(jù)之間的差距,傳統(tǒng)的司法統(tǒng)計(jì)數(shù)據(jù)難以充分滿足學(xué)術(shù)研究對于數(shù)據(jù)客觀性、嚴(yán)謹(jǐn)性、具體性等的需要。當(dāng)然,最高法還通過指導(dǎo)案例的形式公開了部分個(gè)案信息。相比之下,指導(dǎo)案例雖然更接近案件的原始信息(包括基本案情、裁判理由及結(jié)果),但其僅是刪減濃縮后的案件概述,可供研究者發(fā)掘、利用的數(shù)據(jù)信息極為有限。更重要的是,指導(dǎo)案例總體數(shù)量極少,迄今最高法只發(fā)布了100余例,對于數(shù)據(jù)研究者而言不過杯水車薪。
需要指出,真正的法律大數(shù)據(jù)的出現(xiàn)與最高法的改革舉措直接相關(guān)。基于司法公開的理念,自黨的十八大以來,最高法建成了四大司法公開平臺(tái),包括審判流程信息公開網(wǎng)、執(zhí)行信息公開網(wǎng)、庭審公開網(wǎng)以及影響最為廣泛的裁判文書網(wǎng)。
裁判文書網(wǎng)的建立與發(fā)展是最高法近年來大力推進(jìn)裁判文書上網(wǎng)工作最為重要的成果。早在2009年3月25日,最高法便印發(fā)了《人民法院第三個(gè)五年改革綱要(2009-2013)》(法發(fā)〔2009〕14號),提出要“研究建立裁判文書網(wǎng)上發(fā)布制度和執(zhí)行案件信息的網(wǎng)上查詢制度”。隨后,最高法陸續(xù)發(fā)布了如《關(guān)于司法公開的六項(xiàng)規(guī)定》(法發(fā)〔2009〕58號)、《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(法發(fā)〔2010〕48號)[8]等規(guī)范性文件,對法院在互聯(lián)網(wǎng)公布裁判文書的原則、范圍、程序等作出了具體規(guī)定,裁判文書網(wǎng)的建立工作啟動(dòng)。2011年12月30日,最高法召開司法公開工作領(lǐng)導(dǎo)小組第一次會(huì)議,提出制定建立全國統(tǒng)一裁判文書網(wǎng)的工作規(guī)劃。2013年5月8日,最高法在廣西柳州召開司法公開調(diào)研會(huì),就建立全國統(tǒng)一裁判文書網(wǎng)的方案設(shè)計(jì)向全國部分法院進(jìn)行調(diào)研。裁判文書網(wǎng)建設(shè)進(jìn)入設(shè)計(jì)階段。2013年5月22日,最高法黨組審議通過了“關(guān)于建立中國裁判文書網(wǎng)的報(bào)告”,明確在互聯(lián)網(wǎng)建立名為“中國裁判文書網(wǎng)”的網(wǎng)站平臺(tái),統(tǒng)一公布全國各級法院生效裁判文書。自此,中國裁判文書網(wǎng)建設(shè)進(jìn)入具體實(shí)施階段。最高法在2013年6月28日通過中國裁判文書網(wǎng)首批公布了本院生效裁判文書50份。值得一提的是,2013年7月1日,《最高人民法院裁判文書上網(wǎng)公布暫行辦法》正式實(shí)施,這是最高法第一個(gè)專門規(guī)范自身裁判文書上網(wǎng)公布工作的制度性文件。依據(jù)該辦法,除法律規(guī)定的特殊情形外,最高法發(fā)生法律效力的判決書、裁定書、決定書一般均應(yīng)在互聯(lián)網(wǎng)公布。更重要的是,2013年11月12日,黨的十八屆三中全會(huì)通過的《中共中央關(guān)于全面深化改革若干重大問題的決定》中提到要“增強(qiáng)法律文書說理性,推動(dòng)公開法院生效裁判文書”,從而為裁判文書上網(wǎng)確立了極為重要的政治依據(jù)。
在最高法統(tǒng)領(lǐng)下,各級法院也加入了推動(dòng)裁判文書上網(wǎng)的隊(duì)列。2013年11月13日,最高法審判委員會(huì)第1595次會(huì)議討論通過新的《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(法釋〔2013〕26號)[9],要求自2014年1月1日起,法院生效裁判文書應(yīng)當(dāng)統(tǒng)一在中國裁判文書網(wǎng)公布,這是最高法第一次以司法解釋的方式對各級法院在互聯(lián)網(wǎng)公布裁判文書的工作進(jìn)行全面規(guī)范。為了響應(yīng)該司法解釋的規(guī)定,2013年12月31日,全國四級法院開始同時(shí)向中國裁判文書網(wǎng)上傳生效裁判文書,中國裁判文書網(wǎng)開始全面發(fā)揮統(tǒng)一公布全國法院生效裁判文書的平臺(tái)功能。2015年6月,全國四級法院已經(jīng)全部實(shí)現(xiàn)生效裁判文書上網(wǎng)公布,實(shí)現(xiàn)了案件類型全覆蓋、法院全覆蓋。[10]隨后,最高人民法院在2016年對原有裁判文書網(wǎng)上公開的意見進(jìn)行修訂并發(fā)布了《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定(2016修訂)》(法釋〔2016〕19號)。新規(guī)定將原規(guī)定“依法、及時(shí)、規(guī)范、真實(shí)”的原則調(diào)整為“依法、全面、及時(shí)、規(guī)范”,突出了“全面”。在具體制度層面,新規(guī)定進(jìn)一步擴(kuò)展了裁判文書網(wǎng)上公開的范圍,同時(shí)規(guī)定“不在互聯(lián)網(wǎng)公布的裁判文書,應(yīng)當(dāng)公布案號、審理法院、裁判日期及不公開理由”。
由此觀之,裁判文書網(wǎng)所公布的是除法定不公開或不宜公開的案件外,包括最高法在內(nèi)的全國各級法院的全部生效裁判文書,包括了判決書、裁定書、決定書、通知書、支付令及小部分調(diào)解書。因此,裁判文書網(wǎng)的誕生與發(fā)展所帶來的豐富的全國性數(shù)據(jù)與傳統(tǒng)實(shí)證研究所使用的數(shù)據(jù)在數(shù)量級、廣泛性上都不可同日而語。2017年8月23日,裁判文書網(wǎng)的總訪問量突破了100億次,當(dāng)時(shí)累計(jì)公開裁判文書3247萬篇。[11]而約兩年后,截至2019年8月12日,裁判文書網(wǎng)文書總量已達(dá)到7439余萬份,訪問總量已超過了312億次,文書總量及訪問總量均成倍增長。
需要指出,除裁判文書網(wǎng)外的其他公開平臺(tái)中,審判流程信息公開網(wǎng)是主要面向案件當(dāng)事人及其代理人公開的查詢案件、聯(lián)系法官、接受電子送達(dá)的平臺(tái),這一平臺(tái)對于社會(huì)公眾公開的內(nèi)容只包括法院地址、開庭公告、審判委員會(huì)組成人員等法院公共信息,信息量稀少且研究價(jià)值有限。而庭審公開網(wǎng)和執(zhí)行信息公開網(wǎng)主要面向社會(huì)公眾公開,這兩個(gè)平臺(tái)所公開的信息雖不如裁判文書網(wǎng)一般全面、充分,但也都可能成為大數(shù)據(jù)研究的潛在挖掘?qū)ο螅鳛檠a(bǔ)充數(shù)據(jù)源。執(zhí)行信息公開網(wǎng)主要公開全國法院失信被執(zhí)行人名單信息。2013年10月1日起,《最高人民法院關(guān)于公布失信被執(zhí)行人名單信息的若干規(guī)定》正式施行。該規(guī)定實(shí)施后,各級法院開始依職權(quán)作出將被執(zhí)行人納入失信被執(zhí)行人名單的決定。2013年10月24日,全國法院失信被執(zhí)行人名單信息公布與查詢平臺(tái)面向社會(huì)開通,此即是后來的中國執(zhí)行信息公開網(wǎng)。截至2019年8月19日,執(zhí)行信息網(wǎng)已公布了失信被執(zhí)行人名單約1495萬例。而庭審公開網(wǎng)則是實(shí)現(xiàn)全國法院庭審視頻統(tǒng)一直播展示最重要的平臺(tái)。2016年4月14日,最高法公布了修改后的《法庭規(guī)則》,其中規(guī)定以下三種依法公開進(jìn)行的庭審活動(dòng)人民法院可以通過電視、互聯(lián)網(wǎng)或其他公共媒體進(jìn)行圖文、音頻、視頻直播或錄播:(一)公眾關(guān)注度較高;(二)社會(huì)影響較大;(三)法治宣傳教育意義較強(qiáng)。2016年5月,最高法院長周強(qiáng)對《關(guān)于推進(jìn)我院與全國法院庭審公開工作基本方案的請示》文件做出批復(fù),要求各個(gè)地方法院依托全國統(tǒng)一庭審公開平臺(tái)切實(shí)加大庭審公開力度。2016年7月,最高法率先示范常態(tài)化庭審公開。2016年9月27日,中國庭審公開網(wǎng)正式上線運(yùn)行。自庭審公開網(wǎng)上線迄今接近三年的時(shí)間內(nèi),最高法累計(jì)直播3000余件,全國累計(jì)直播次數(shù)已達(dá)420余萬次,訪問總量超過183億次。
相較于傳統(tǒng)數(shù)據(jù)資源,上述司法公開平臺(tái)特別是裁判文書網(wǎng)具備以下特征:其一,數(shù)據(jù)的海量性。在裁判文書網(wǎng)投入運(yùn)行之前,我國通過兩高工作報(bào)告、指導(dǎo)案例、法律年鑒等形式公開的司法數(shù)據(jù)僅是我國司法全貌的冰山一角。相比之下,裁判文書網(wǎng)所公開的信息堪稱空前之多。按照最高法相關(guān)規(guī)定,除了特定不能公開的案件外,其余案件都要在生效七天之內(nèi)上網(wǎng)公開,且原則上是面向全社會(huì)公開。此種公開的力度是革命性的,在全世界范圍內(nèi)也不遑多讓。[12]隨著過往文書還在被陸續(xù)上傳,裁判文書網(wǎng)的數(shù)據(jù)量迅速增長。例如從2014年裁判文書網(wǎng)剛開始啟動(dòng)一年的558萬份,2015年約900萬份,2016年約1000萬份,[13]截至2019年8月已超過7439萬份。中國裁判文書網(wǎng)目前已經(jīng)成為全球最大的裁判文書發(fā)布平臺(tái),可以預(yù)期未來的文書數(shù)據(jù)量也將非常可觀。空前規(guī)模的文書數(shù)據(jù)量為基于數(shù)據(jù)挖掘的實(shí)證研究提供了廣闊、全面的學(xué)術(shù)資源以反映中國司法特別是審判階段司法面貌。
其二,數(shù)據(jù)內(nèi)容的豐富細(xì)致性。與傳統(tǒng)法律數(shù)據(jù)粗疏、籠統(tǒng)的特點(diǎn)不同,裁判文書網(wǎng)等平臺(tái)所提供的是以個(gè)案裁判為支撐的詳細(xì)文本、視頻數(shù)據(jù),如案件的判決書、裁定書、完整庭審視頻等,通過對案件原始信息的具體、充分的呈現(xiàn)使得多角度、深入化的數(shù)據(jù)研究成為可能。其三,數(shù)據(jù)的客觀性和不反應(yīng)性[14]。相對于統(tǒng)計(jì)年鑒、工作報(bào)告等經(jīng)過了“精細(xì)加工”、潛藏了數(shù)據(jù)發(fā)布主體自身價(jià)值偏好的結(jié)構(gòu)化數(shù)據(jù),[15]裁判文書網(wǎng)的數(shù)據(jù)是由審判法院按照法律規(guī)定直接上傳的案件原始文本,數(shù)據(jù)發(fā)布主體的價(jià)值偏好得以淡化,以此為基的研究更能保持其客觀本色。另外,裁判文書一旦上傳就可供研究者自由選擇下載,不會(huì)隨著研究人員的觀察而發(fā)生內(nèi)容或形式上的改變,即裁判文書網(wǎng)的數(shù)據(jù)還具有不反應(yīng)性。其四,數(shù)據(jù)的可生成性及相應(yīng)數(shù)據(jù)研究的個(gè)性化。盡管裁判文書網(wǎng)、庭審公開網(wǎng)甚或執(zhí)行信息公開網(wǎng)本身包含的信息并非嚴(yán)格意義上的數(shù)據(jù)或一些研究者所稱的定量化的數(shù)據(jù),[16]研究者難以直接對其進(jìn)行數(shù)理統(tǒng)計(jì)、分析。但是,研究者可以通過標(biāo)簽、編碼等數(shù)據(jù)科學(xué)方法將判決文書、庭審視頻中所包含的案件信息轉(zhuǎn)化生成研究所用的定量化數(shù)據(jù)。研究者可以根據(jù)自己的研究思路、研究偏好有傾向地選取數(shù)據(jù)搜集的范圍和方式,從而得出不同于官方數(shù)據(jù)、有別于官方角度的新型法律數(shù)據(jù),進(jìn)而為設(shè)計(jì)個(gè)性化、特色化的研究模型提供了可能。
筆者認(rèn)為,以裁判文書網(wǎng)為載體的新型司法公開數(shù)據(jù)構(gòu)成了當(dāng)代中國法律大數(shù)據(jù)的基本源泉。[17]這些數(shù)據(jù)載體的上線不僅推進(jìn)了陽光司法,更為中國的實(shí)證法律研究創(chuàng)造了前所未有的機(jī)遇。中國的法律大數(shù)據(jù)研究的廣泛展開也肇始于裁判文書統(tǒng)一集中上網(wǎng):在裁判文書上網(wǎng)之前,中國極少有真正的法律大數(shù)據(jù)研究,法律實(shí)證研究基本上是基于“小數(shù)據(jù)”,即研究者局部范圍或特定領(lǐng)域內(nèi)所自行收集的數(shù)據(jù)而展開的“手工作坊式”研究。[18]而裁判文書網(wǎng)這一全國性、公開、細(xì)顆粒的法律大數(shù)據(jù)平臺(tái)的出現(xiàn),使得研究者能夠運(yùn)用統(tǒng)計(jì)科學(xué)和計(jì)算科學(xué)手段將海量文書轉(zhuǎn)化為數(shù)據(jù),從而收獲不同于官方大數(shù)據(jù)的新型法律大數(shù)據(jù)。這為中國法學(xué)研究打開了豐富的可能。
剖析:基于裁判文書網(wǎng)的大數(shù)據(jù)研究之問題及其成因
以大數(shù)據(jù)為主題的研究之外延不限于文中實(shí)際運(yùn)用了大數(shù)據(jù)的研究,例如有學(xué)者關(guān)注法律大數(shù)據(jù)所面臨的倫理規(guī)范等問題,[19]也有學(xué)者就開展大數(shù)據(jù)法律研究的方法論提出了有啟發(fā)性的見解。[20]
本文所關(guān)注的大數(shù)據(jù)法律研究是指直接運(yùn)用大數(shù)據(jù)來進(jìn)行現(xiàn)象描述或理論闡釋的學(xué)術(shù)研究。近年來,國內(nèi)業(yè)已出現(xiàn)了不少直接利用裁判文書網(wǎng)等平臺(tái)的大數(shù)據(jù)或大量數(shù)據(jù)開展法學(xué)研究的探索,其展開方式如下:研究者首先借助計(jì)算機(jī)軟件從裁判文書網(wǎng)批量下載數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗后,根據(jù)研究需要挖掘裁判文書中的有價(jià)值信息,對其進(jìn)行相應(yīng)的數(shù)據(jù)分析。但現(xiàn)有研究存在以下的不足之處:
當(dāng)前大數(shù)據(jù)研究的技術(shù)手段仍停留在較為初級的階段。首先,現(xiàn)有的研究仍未完成對裁判文書充分的文本識(shí)別與信息挖掘。已公開的裁判文書具有海量性、豐富細(xì)致性、不反應(yīng)性等多種有利于研究的特征,但如何將裁判文書轉(zhuǎn)化為研究所需的數(shù)據(jù)是研究者首先面臨的問題。當(dāng)下最常見的大數(shù)據(jù)研究在裁判文書中所收集和挖掘的數(shù)據(jù)多是一些淺層數(shù)據(jù)、顯性數(shù)據(jù),比如當(dāng)事人有無律師、文化程度、籍貫、年齡、被采取的強(qiáng)制措施等處在裁判文書特定位置、易于被抓取的數(shù)據(jù),未涉及對裁判文書的主文分析。對上述要素的提取可以通過直接的關(guān)鍵詞識(shí)別來實(shí)現(xiàn),再對提取后得到的數(shù)據(jù)進(jìn)行研究主題下的個(gè)性化分析。一個(gè)典型的例子是筆者對四川省2015-2016年一審刑事辯護(hù)率所做的大數(shù)據(jù)分析。筆者收集了裁判文書網(wǎng)和聚法案例網(wǎng)上共54409份刑事一審判決書,先討論了四川省范圍內(nèi)的整體辯護(hù)率,大致把握了辯護(hù)率的整體面向,再以辯護(hù)性質(zhì)、法院層級、審理程序、犯罪類型等分類指標(biāo)對數(shù)據(jù)進(jìn)行更加細(xì)致的差異分析。最后,通過考察被告人各身份指標(biāo)下的不同辯護(hù)情況,筆者提出了刑事辯護(hù)資源分配上目前存在的“財(cái)富效應(yīng)”現(xiàn)象。[21]類似研究還有王祿生基于對303萬判決書大數(shù)據(jù)的自然語義挖掘,提取了研究所需的逮捕轉(zhuǎn)非羈押率、不必要逮捕率、捕后輕刑率等個(gè)性化指標(biāo)。[22]然而,在難度更大的深層數(shù)據(jù)、隱性數(shù)據(jù)比如原被告的主張及相應(yīng)證據(jù)、法院的說理和判決結(jié)果等信息的獲取上尚未出現(xiàn)充分有效的技術(shù)手段,也尚無研究者實(shí)現(xiàn)了對此類信息的大數(shù)據(jù)分析。
相應(yīng)地,研究者對數(shù)據(jù)分析方法的運(yùn)用也趨于單調(diào)。在面對大數(shù)據(jù)的整理與分析時(shí),法學(xué)研究者大多“還不能科學(xué)、熟練地運(yùn)用數(shù)理統(tǒng)計(jì)等分析手段與方法對問題展開統(tǒng)計(jì)學(xué)意義上的定量分析,更遑論在研究中進(jìn)行數(shù)理模型的建構(gòu)”。[23]法學(xué)實(shí)證研究在整體上仍以基礎(chǔ)的平均數(shù)、頻數(shù)、方差等描述性統(tǒng)計(jì)方法為首要工具,[24]這與當(dāng)前經(jīng)濟(jì)學(xué)、管理學(xué)等學(xué)科的研究技術(shù)水平相去甚遠(yuǎn)。[25]描述性研究在對經(jīng)驗(yàn)現(xiàn)象的特征勾勒上起到了重要作用,但在面對構(gòu)建事物間的相關(guān)性甚至是因果性這類深入研究時(shí)便顯得捉襟見肘。因?yàn)榘ù髷?shù)據(jù)法學(xué)研究在內(nèi)的法律實(shí)證研究不應(yīng)當(dāng)僅僅是描述現(xiàn)象的工具,更需承擔(dān)著揭示法律運(yùn)作過程的規(guī)律、深度闡釋事實(shí)背后的相關(guān)關(guān)系甚或因果關(guān)系的任務(wù)。
大數(shù)據(jù)研究的主題及結(jié)論亦缺乏應(yīng)有的學(xué)術(shù)深度和創(chuàng)新性。數(shù)據(jù)的選取與分析跟研究的主題與展開過程息息相關(guān)。首先,淺層數(shù)據(jù)、顯性數(shù)據(jù)所呈現(xiàn)出的只是司法實(shí)踐的大致面相,無法實(shí)現(xiàn)對某一專門化研究主題的深入分析。除掣肘于所能挖掘到的數(shù)據(jù)類型外,研究者對主題的選取也很大程度上局限于已有的現(xiàn)實(shí)問題,試圖通過數(shù)據(jù)分析的新角度對其提出解決對策。[26]其次,現(xiàn)階段研究中的數(shù)據(jù)往往只是一個(gè)論證理論主張的理據(jù),遠(yuǎn)非論理的基礎(chǔ)或核心。由此,目前研究多是對數(shù)據(jù)的一種純手段性的運(yùn)用,即以數(shù)據(jù)分析結(jié)果來驗(yàn)證既有的命題,研究者仍多以主觀性較強(qiáng)的學(xué)理性解釋作為補(bǔ)充甚或主要的論述理由。質(zhì)言之,一些研究成果都囿于既有理論的框架,數(shù)據(jù)無法發(fā)揮出導(dǎo)向性的作用,所得結(jié)論也略顯老套,甚至浮于淺顯籠統(tǒng)的數(shù)據(jù)結(jié)論,可能脫離于真實(shí)的司法實(shí)踐,研究者鮮少能發(fā)現(xiàn)異于傳統(tǒng)認(rèn)知的客觀事實(shí),缺乏發(fā)人深省的問題揭示與理論思辨,更毋論建構(gòu)以數(shù)據(jù)為支撐的全新理論了。
何以形成上述問題?筆者以為主要在于技術(shù)門檻要求嚴(yán)格、已公開裁判文書不能反映出真實(shí)的司法實(shí)踐全貌及研究者未能跳出現(xiàn)有法律理論的先驗(yàn)框架三個(gè)方面。
其一,對當(dāng)前的法學(xué)研究者而言,數(shù)據(jù)的收集、清洗、處理及分析等方面都存在著天然的技術(shù)門檻限制。法律大數(shù)據(jù)研究的核心在于對海量數(shù)據(jù)的價(jià)值挖掘、處理,研究者掌握與運(yùn)用相關(guān)技術(shù)方法的能力在很大程度上決定了研究的深度與層次,而在數(shù)據(jù)運(yùn)用方面的薄弱可能導(dǎo)致研究結(jié)論流于膚淺甚至產(chǎn)生謬誤。可以說,與數(shù)據(jù)打交道的必要步驟為大數(shù)據(jù)法學(xué)研究設(shè)定了先天的技術(shù)門檻,但傳統(tǒng)的法律研究者很難嫻熟掌握統(tǒng)計(jì)科學(xué)及計(jì)算機(jī)科學(xué)的新技術(shù)。上網(wǎng)裁判文書量的巨大決定了研究者自然不可能以手工下載的方式一份份收集文書。基于大量數(shù)據(jù)獲取的需要,研究者已經(jīng)開始使用爬蟲軟件等方式抓取數(shù)據(jù)。但由于通過網(wǎng)絡(luò)爬蟲系統(tǒng)獲取裁判文書網(wǎng)數(shù)據(jù)的行為會(huì)造成網(wǎng)站負(fù)荷過大、影響正常用戶的訪問,最高法成立的專門運(yùn)維保障團(tuán)隊(duì)已采取驗(yàn)證碼等多種方式上線系統(tǒng)軟件防爬功能,不斷加強(qiáng)“反爬蟲”技術(shù),使得研究者獲取大量數(shù)據(jù)的過程愈發(fā)艱難。[27]而文書的獲取只是大數(shù)據(jù)研究的起點(diǎn),爬蟲軟件所抓取的文書是典型的無標(biāo)簽非結(jié)構(gòu)化數(shù)據(jù),其中包含了大量重復(fù)文書、空白文書等“臟數(shù)據(jù)”,需要再次進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗的目的是為挖掘提供準(zhǔn)確而有效的數(shù)據(jù),因此需要過濾或修改不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)等。數(shù)據(jù)清洗可以采用最簡單易行的方法,即刪除或忽略缺失值,但這伴隨著損失樣本量、統(tǒng)計(jì)功效弱的缺陷。更為精細(xì)的數(shù)據(jù)清洗方法還有插補(bǔ)、均值插補(bǔ)、離群點(diǎn)分析等,[28]這些方法的恰當(dāng)運(yùn)用要求研究者具備一定的統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)基礎(chǔ)。更為重要的是,非結(jié)構(gòu)化數(shù)據(jù)還需要經(jīng)歷被轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的過程。如前所述,研究者對裁判文書主文的內(nèi)容挖掘程度尚淺,但更具研究價(jià)值的大多是不易于被提取的深層指標(biāo)。法律文本挖掘的困難來源于實(shí)踐中司法表達(dá)的極其豐富性加之法律規(guī)則及體系的不斷變化性。正因于此,現(xiàn)實(shí)中部分研究者仍在采用逐份手工統(tǒng)計(jì)的辦法來進(jìn)行數(shù)據(jù)資源的挖掘。[29]這種耗時(shí)耗力的原始數(shù)據(jù)挖掘方法極大增加了數(shù)據(jù)研究的成本,只能適用于小數(shù)據(jù)樣本的信息挖掘,但大數(shù)據(jù)時(shí)代海量的材料與數(shù)據(jù)決定了研究者難以再親自、逐一地審閱、統(tǒng)計(jì)和分析。最后,研究者需要對處理后的數(shù)據(jù)內(nèi)容作出分析。在這一步驟中,多數(shù)研究者仍停留于描述性的數(shù)據(jù)分析為主的階段,往往停留在經(jīng)驗(yàn)性地描述研究對象特征的層面,對因果關(guān)系的分析也只能作傳統(tǒng)的推測性演繹,很少有研究者能夠使用統(tǒng)計(jì)軟件與統(tǒng)計(jì)學(xué)分析方法如斷點(diǎn)回歸、雙重差分、匹配等對數(shù)據(jù)資料進(jìn)行精確的定量分析。而隨著大數(shù)據(jù)研究的深入和復(fù)雜化,更加專業(yè)化的機(jī)器學(xué)習(xí)與算法應(yīng)用等工具也將進(jìn)入研究者的視野。
其二,目前所公開的裁判文書只是全國范圍內(nèi)有缺失的數(shù)據(jù),其缺失既源自數(shù)據(jù)公開渠道的限制,又源自數(shù)據(jù)公開范圍的限制。一方面,裁判文書網(wǎng)(包括庭審公開網(wǎng)、執(zhí)行信息公開網(wǎng))是以法院為中心的信息公開,這一公開渠道對司法實(shí)踐的反映是有限的。裁判文書網(wǎng)公開的信息主要是訴訟型信息、法院審判信息。而其余關(guān)鍵的程序過程如警察的偵查過程、檢察院的起訴過程、法院庭審前后的過程都沒有公開的、正式或非正式的文字記錄,更遑論在此基礎(chǔ)上的數(shù)據(jù)化了。而庭審公開網(wǎng)則僅僅是部分案件庭審階段的視頻數(shù)據(jù)。執(zhí)行信息公開網(wǎng)提供的則主要是失信被執(zhí)行人等的身份信息。另一方面,在公開渠道單一、公開階段特定的框架下,數(shù)據(jù)仍存在一定程度的范圍缺失,體現(xiàn)為隨機(jī)性缺失和系統(tǒng)性缺失兩類。系統(tǒng)性缺失的數(shù)據(jù)是法律規(guī)定不能公開或不宜公開的案件,如未成年犯罪案件、涉及國家秘密的案件等。[30]筆者之前關(guān)于刑事辯護(hù)率的研究發(fā)現(xiàn),在法定不上網(wǎng)的刑事案件中數(shù)量最多的可能是未成年人犯罪案件,至于涉及國家秘密的案件、調(diào)解案件以及其他不宜在互聯(lián)網(wǎng)公布的刑事案件數(shù)量很少。[31]而根據(jù)以往《中國法律年鑒》的數(shù)據(jù),未成年犯罪人約占全國當(dāng)年全部犯罪人數(shù)的5%-10%。[32]因此,上網(wǎng)裁判文書所涉及的案件類型并不全面。隨機(jī)性缺失的數(shù)據(jù)則是依據(jù)法律規(guī)定應(yīng)當(dāng)上網(wǎng)公開但由于種種原因沒有上網(wǎng)的案件,包括但不限于尚未生效的案件,比如提起上訴、抗訴的案件等。這些案件尚未上網(wǎng),但卻會(huì)被計(jì)入當(dāng)年結(jié)案數(shù)。此外,隨機(jī)性缺失的數(shù)據(jù)還可能包括由于工作滯后而上網(wǎng)不及時(shí)導(dǎo)致的晚公開案件等。[33]因此,數(shù)據(jù)隨機(jī)性缺失的程度與負(fù)責(zé)實(shí)際數(shù)據(jù)傳輸?shù)母鱾€(gè)法院及有關(guān)工作人員的工作落實(shí)情況息息相關(guān)。基于上述原因,從整體數(shù)量上看,裁判文書網(wǎng)已經(jīng)公布的裁判文書數(shù)據(jù)并不完全具備全樣本特征:公布文書數(shù)量與實(shí)際結(jié)案文書數(shù)量相差較大,數(shù)據(jù)缺失問題相當(dāng)嚴(yán)重。有學(xué)者對于全國法院2014年和2015年的裁判文書上網(wǎng)所做的統(tǒng)計(jì)顯示:按省份看,上網(wǎng)裁判文書占實(shí)際結(jié)案文書比重最高的達(dá)78.14%(陜西),最低的僅為15.17%(西藏);最高法在上述兩年的上網(wǎng)裁判文書僅占其實(shí)結(jié)案件量的46.13%,這一比重與全國的總體情況大體持平。[34]截至2019年7月6日,四川省的法院在2017-2018年間的裁判文書上網(wǎng)約143.82萬份,而根據(jù)四川省高級人民法院工作報(bào)告,2017-2018年間全省共審結(jié)案件216.79萬件,[35]再考慮到每一起案件可能會(huì)同時(shí)具有判決書、裁定書、決定書等多份文書,這些審結(jié)案件所生成的裁判文書總量當(dāng)然更遠(yuǎn)遠(yuǎn)多于216.79萬件。綜上而言,現(xiàn)階段中國法律大數(shù)據(jù)整體上是以裁判文書網(wǎng)為主要來源的官方化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大量數(shù)據(jù),實(shí)質(zhì)上只是全國法律領(lǐng)域內(nèi)的有限的、角度特定的數(shù)據(jù)。由此,“現(xiàn)實(shí)中的大數(shù)據(jù)”往往是有缺失的大量數(shù)據(jù)。若研究者意圖開展反映我國法律和司法實(shí)踐全貌的研究,則面對的只是“殘缺”大數(shù)據(jù),無法以直接上網(wǎng)的裁判文書樣本推論到整體樣本情況。上網(wǎng)裁判文書在數(shù)量、地域、案件類型等各個(gè)方面的偏差也決定了特定范圍的數(shù)據(jù)研究也不一定能夠獲取到有代表性的全樣本數(shù)據(jù)。而過往的數(shù)據(jù)研究經(jīng)驗(yàn)已經(jīng)表明未經(jīng)調(diào)整的不具代表性的數(shù)據(jù)極有可能導(dǎo)致錯(cuò)誤的結(jié)論。[36]
此外,裁判文書本身就是一種不完全的記載形式。當(dāng)我們說已公開的裁判文書不能反映出我國司法實(shí)踐的全貌時(shí),不僅僅是在談?wù)摬门形臅?dāng)前有限制的公開范圍和公開數(shù)量,同時(shí)也是在強(qiáng)調(diào)裁判文書這一信息載體的本質(zhì)缺陷。換言之,裁判文書不可能精確地記錄下司法實(shí)踐中影響法院審判案件的所有法律或非法律的因素及其在司法實(shí)踐中真實(shí)的作用效果。白建軍對裁判文書背后可能存在的司法潛見作用的大數(shù)據(jù)研究就是一個(gè)很好的揭示。[37]因此,我們在面對單個(gè)的裁判文書尚會(huì)存有這樣的疑問:是否所有與案件相關(guān)的因素都在裁判文書中被提及了,有哪些因素可能被遺漏?會(huì)不會(huì)非法律的因素被包裝成為法律的因素繼而被呈現(xiàn)于裁判文書之中?是否文書中頻繁提及了的內(nèi)容一定是相對重要的?這些問題都是單薄的一紙文書無法向研究者提供答案的。可以說,裁判文書必然帶著一定的“欺騙性”,過于依賴和偏信裁判文書信息可能會(huì)產(chǎn)生如下的問題,第一,忽略文本之外的其他相關(guān)要素,第二,非法律的要素被包裝成法律要素并被研究者提取,第三,錯(cuò)誤認(rèn)識(shí)文本中某些要素的重要程度。裁判文書中存在的偏見和錯(cuò)誤如果未被重視并加以糾正,在經(jīng)過數(shù)據(jù)處理后會(huì)被保留甚至放大,并最終導(dǎo)致研究結(jié)論不同程度地偏離于客觀的司法實(shí)踐。
其三,國內(nèi)研究者尚未擺脫先驗(yàn)法律理論框架的束縛。當(dāng)下大數(shù)據(jù)研究展開的方式都以文本識(shí)別與挖掘?yàn)槠瘘c(diǎn),所提取的裁判文書中的要素多是法律意義上的關(guān)鍵要素、重要的法律特征,比如犯罪構(gòu)成四要件、定罪要素和量刑要素等。就算在一些深層指標(biāo)如爭議焦點(diǎn)的提取上有了機(jī)器學(xué)習(xí)的介入,但所使用的都是有監(jiān)督的機(jī)器學(xué)習(xí),在設(shè)計(jì)者所給定的先驗(yàn)框架下完成特定約束條件下的識(shí)別。因此,研究者不免帶著先入為主的提取假設(shè)甚至研究假設(shè),這使得國內(nèi)現(xiàn)有的數(shù)據(jù)研究大多屬于“理論導(dǎo)向”,即工具性地運(yùn)用數(shù)據(jù)來驗(yàn)證既存的理論,而未將利用數(shù)據(jù)研究發(fā)現(xiàn)新現(xiàn)象、打造新理論的努力付諸實(shí)踐。加之現(xiàn)有研究普遍缺乏較為精細(xì)的數(shù)據(jù)處理模型與嚴(yán)密的理論闡釋體系,多是對各種法律數(shù)據(jù)的簡單歸類統(tǒng)計(jì),因此能從數(shù)據(jù)直接分析得出的客觀結(jié)論不夠豐富,這使得僅僅作為論據(jù)的數(shù)據(jù)結(jié)果也遠(yuǎn)非嚴(yán)謹(jǐn)精確。大數(shù)據(jù)的潛力不止于此。實(shí)證研究的出現(xiàn)已架起了傳統(tǒng)法教義學(xué)的話語與司法現(xiàn)實(shí)語境之間的橋梁,而司法大數(shù)據(jù)資源的涌現(xiàn)則使得現(xiàn)實(shí)中的圖景更加清晰細(xì)致。面對海量、免費(fèi)的大數(shù)據(jù)資源,我們更有可能從中獲得全新的信息、知識(shí),極大擴(kuò)展法學(xué)研究的范圍與領(lǐng)域,生產(chǎn)出“數(shù)據(jù)導(dǎo)向”的學(xué)術(shù)研究成果。但國內(nèi)的研究者們尚停留在對大數(shù)據(jù)的初淺運(yùn)用階段,在官方話語、法律概念和傳統(tǒng)法律理論的束縛下,既未意識(shí)到大數(shù)據(jù)豐富的待挖掘價(jià)值,也未能掌握處理大數(shù)據(jù)的科學(xué)方法,總之未能展示出以大數(shù)據(jù)重新認(rèn)識(shí)法律實(shí)踐、挑戰(zhàn)權(quán)威法律理論的信心與能力。這種理論雄心與能力的相對短缺可能會(huì)使國內(nèi)的大數(shù)據(jù)研究共同體較難走出當(dāng)前畫地為牢的困境。與此同時(shí),部分國外學(xué)者開展的研究很值得我們參考與借鑒。如Holger Spamann及其合作者通過實(shí)驗(yàn)數(shù)據(jù)揭示了新現(xiàn)象,即判例法國家的法官在判案時(shí)反而比大陸法國家的法官更少受到既往先例的影響,且法官們還會(huì)不恰當(dāng)?shù)匕雅c法律無關(guān)的因素納入考慮。[38]雖然研究者尚未對這一意料外的實(shí)驗(yàn)結(jié)果提供理論上的解讀,但類似事實(shí)的發(fā)現(xiàn)與人們的常識(shí)和傳統(tǒng)認(rèn)知大相徑庭,必定會(huì)引發(fā)學(xué)界深入的追蹤與探討。更進(jìn)一步地,Alexander Stremitzer及其合作者基于新現(xiàn)象的發(fā)現(xiàn),構(gòu)建了一種新理論——與傳統(tǒng)的“取法于上,僅得為中,取法于中,故為其下”[39]的說法剛好相反,Stremitzer的研究表明設(shè)定要求過高的規(guī)則反而會(huì)收到適得其反的效果,而中規(guī)中矩的規(guī)則能收獲更好的實(shí)施效果。[40]上述研究向我們展示了數(shù)據(jù)具有跳出既有觀點(diǎn)與理論框架的束縛、直接揭示出客觀世界隱藏面向的巨大潛力,這正是實(shí)證研究相較于法教義學(xué)所更具客觀性、科學(xué)性的一面。
展望:如何更好地利用大數(shù)據(jù)開展研究
盡管存在問題,法律大數(shù)據(jù)研究毫無疑將成為一種引領(lǐng)未來的法學(xué)研究范式,學(xué)者們須將這面紅旗堅(jiān)定地打下去。未來的大數(shù)據(jù)研究應(yīng)從以下四方面展開。
其一,不同于傳統(tǒng)法教義學(xué)的展開方式,對數(shù)據(jù)處理技術(shù)的需求始終貫穿于大數(shù)據(jù)研究的各個(gè)流程之中,因此研究者需繼續(xù)推進(jìn)統(tǒng)計(jì)科學(xué)、計(jì)算機(jī)科學(xué)在研究中的深度運(yùn)用。在數(shù)據(jù)收集、挖掘、整理、分析等方面,法學(xué)研究需要成熟的統(tǒng)計(jì)方式和數(shù)據(jù)科學(xué)方式,以期達(dá)到最大程度的客觀及精確。在數(shù)據(jù)選取與收集上,研究者可以充分運(yùn)用統(tǒng)計(jì)工具對非全樣本數(shù)據(jù)進(jìn)行調(diào)整,并甄別大數(shù)據(jù)或大量數(shù)據(jù)的有效性、真實(shí)性。而在數(shù)據(jù)挖掘階段,正則表達(dá)式依然是被最廣泛運(yùn)用的方式。該方式在處理高度規(guī)整的文書表達(dá)時(shí)具有很強(qiáng)的準(zhǔn)確性,如從海量文書中自動(dòng)提取辯護(hù)人的數(shù)量、身份等表述高度一致的數(shù)據(jù)。然而,正則表達(dá)式在面臨高度多元化的表達(dá)時(shí),由于無法窮盡表述,就多少顯得力不從心。例如,自首也許在文書中并不會(huì)以“自首”的關(guān)鍵詞出現(xiàn),而是以“家屬扭送”等諸多樣態(tài)的語詞呈現(xiàn),此時(shí)就需要用自然語義識(shí)別技術(shù)(NLP),而此類技術(shù)已經(jīng)開始出現(xiàn)在國內(nèi)研究中。[41]在如何分析、判斷數(shù)據(jù)之間的相關(guān)性和因果關(guān)系上,也應(yīng)涌現(xiàn)出更多的方法與技術(shù)。[42]例如,張永健以量化的法系研究方法論,以具體而數(shù)量龐大的標(biāo)準(zhǔn)(170個(gè)),關(guān)注于一個(gè)部門法(物權(quán)法),采用新的統(tǒng)計(jì)方法畫出了世界128個(gè)法域的物權(quán)法的法系樹形圖,進(jìn)而考察了不同法域的法律之相似度。[43]在數(shù)據(jù)分析領(lǐng)域,推進(jìn)主觀性較強(qiáng)的臆斷式分析轉(zhuǎn)向客觀性更充分的科學(xué)性研究,才能實(shí)現(xiàn)從“軟科學(xué)”到“硬科學(xué)”的轉(zhuǎn)型。
值得未來的研究者高度重視的是,與統(tǒng)計(jì)學(xué)相關(guān)但又頗為不同的機(jī)器學(xué)習(xí)方法也正在崛起并被運(yùn)用于大數(shù)據(jù)分析之中。當(dāng)現(xiàn)有的分析工具和統(tǒng)計(jì)手段已無法滿足大數(shù)據(jù)的處理需求時(shí),人工智能這一不斷進(jìn)化著的新型技術(shù)工具便登上了舞臺(tái)。其通過對巨量數(shù)據(jù)進(jìn)行智能篩選和算法分析,可以實(shí)現(xiàn)對海量數(shù)據(jù)分析效能的顯著提升。例如布盧門斯托克及其同事就在其研究中創(chuàng)建并訓(xùn)練了一種能夠預(yù)測150萬名用戶在調(diào)查中會(huì)做出何種答案的機(jī)器學(xué)習(xí)模型。[44]還有國外學(xué)者在其研究中運(yùn)用了決策樹、迭代算法等機(jī)器學(xué)習(xí)算法,有效地解決了邏輯回歸等傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)工具所不能解決的數(shù)據(jù)處理問題,并最終得出了作出假釋決定的精確機(jī)器預(yù)測模型。[45]
其二,研究者應(yīng)當(dāng)正視并謹(jǐn)慎對待現(xiàn)有數(shù)據(jù)資源的缺失問題。受限于各種客觀條件,獲取包含國內(nèi)司法全樣本的大數(shù)據(jù)只是一種奢望,僅有大量數(shù)據(jù)而非全數(shù)據(jù)可能是中國法學(xué)研究者在很長一段時(shí)間所要面臨的窘境。但大量數(shù)據(jù)也是法學(xué)研究的重要材料,值得高度重視與充分利用。換言之,研究者通過裁判文書網(wǎng)等平臺(tái)所能得到的樣本必定無法直接代表總體的屬性。但許多大數(shù)據(jù)資源其實(shí)都不具有充分代表性,不具充分代表性的數(shù)據(jù)對有些研究目標(biāo)而言顯然不適用,對另一些研究目標(biāo)來說卻可能正中挈領(lǐng)。
在利用裁判文書網(wǎng)進(jìn)行研究時(shí),研究者在了解數(shù)據(jù)偏差情況的前提下,可以適當(dāng)縮小研究范圍,并限定研究對象,確保在有限的數(shù)據(jù)條件下盡可能地收集、獲取某領(lǐng)域、某區(qū)域或某類別相對完整、具有一定代表性的真實(shí)數(shù)據(jù),開展特定區(qū)域、種類、問題的全樣本數(shù)據(jù)研究。但即使是在特定范圍的研究中,研究者也無法獲取到研究目標(biāo)所需的完美數(shù)據(jù),這是因?yàn)橄到y(tǒng)性偏差和隨機(jī)性偏差在任何數(shù)據(jù)樣本中都無法被完全杜絕。但若輔之以一定的技術(shù)手段對不完整數(shù)據(jù)進(jìn)行調(diào)整及修正,數(shù)據(jù)缺失帶來的問題便可以通過研究者合理設(shè)計(jì)的數(shù)據(jù)處理和分析手段得到有效解決。一方面,研究者可以基于對數(shù)據(jù)的樣本內(nèi)比較,將樣本內(nèi)的研究結(jié)果泛化到抽取樣本的總體目標(biāo)上。例如國外研究者使用了明顯非隨機(jī)的樣本——由Xbox(一款微軟游戲機(jī))的美國用戶組成的偏男性化、年輕化的非概率樣本。在對這一看起來非常不理想的樣本的評估過程中研究者對非隨機(jī)抽樣過程進(jìn)行了調(diào)整修正,尤其是利用了事后分層的技術(shù),即利用關(guān)于目標(biāo)總體的輔助信息對樣本進(jìn)行分組進(jìn)而加權(quán)結(jié)果。簡單來說,研究者將抽樣總體分為組內(nèi)每個(gè)人的回答傾向都相同的同類組。換言之,如果所有男性具有相同的回答傾向,所有女性具有相同的回答傾向,那么根據(jù)性別的事后分層便能產(chǎn)生無偏差的評估結(jié)論。最終,該研究正確預(yù)測了2012年美國大選的結(jié)果。[46]
另一方面,研究者還可整合多個(gè)數(shù)據(jù)資源,以達(dá)到數(shù)據(jù)間的查漏補(bǔ)缺。具體而言,當(dāng)僅通過裁判文書網(wǎng)這一主要數(shù)據(jù)來源無法獲取研究所需要的完整數(shù)據(jù)時(shí),研究者便可以考慮轉(zhuǎn)向其他的數(shù)據(jù)源,如傳統(tǒng)的司法統(tǒng)計(jì)數(shù)據(jù)、非官方的案例檢索工具和非官方機(jī)構(gòu)建立的數(shù)據(jù)庫等。例如筆者在以往研究中面對上網(wǎng)判決書數(shù)據(jù)存在系統(tǒng)缺失的情況,便綜合考慮了裁判文書網(wǎng)以外的多方數(shù)據(jù)源對未上網(wǎng)案件的統(tǒng)計(jì)結(jié)果,在已知數(shù)量的上網(wǎng)案件的基礎(chǔ)上,再加權(quán)考慮了所有未上網(wǎng)案件的估算值,代入公式計(jì)算,從而最終得出了S省的全局辯護(hù)率。[47]國外學(xué)者安索拉比赫和赫什在其研究中采用了更為復(fù)雜精細(xì)的數(shù)據(jù)整合過程。他們將Catalist數(shù)據(jù)中的投票記錄和社會(huì)調(diào)查數(shù)據(jù)結(jié)合鏈接成為更大的主數(shù)據(jù)源,再基于該主數(shù)據(jù)源分析了投票行為與投票者屬性間的相關(guān)性,而這兩種基礎(chǔ)數(shù)據(jù)源對于研究而言都缺一不可。[48]
其三,采取多元化的研究方式,如大數(shù)據(jù)與小數(shù)據(jù)研究方法的融合,以填補(bǔ)文書數(shù)據(jù)與司法實(shí)踐間的罅隙。裁判文書只是一種不完全忠實(shí)于司法實(shí)踐的文字記錄。因此,基于裁判文書的大數(shù)據(jù)法學(xué)研究應(yīng)以多種方法展開,而非只立足于單純的大數(shù)據(jù)解讀。數(shù)據(jù)分析在進(jìn)行整體性描述時(shí)獨(dú)具優(yōu)勢,但其缺陷在于單體價(jià)值低,甚至?xí)鲆晜€(gè)體。且大數(shù)據(jù)往往更會(huì)忽略數(shù)據(jù)背后的政治、社會(huì)及司法制度等多重背景,在樣本分析時(shí)無法做到如“深描”般充分細(xì)致,往往不足以反映研究對象的全貌、深貌。長期以來,基于小數(shù)據(jù)的法律實(shí)證研究一直是主流研究方式,研究者一般通過調(diào)查和深度訪談來獲取定性數(shù)據(jù)。研究者對于小數(shù)據(jù)內(nèi)容的挖掘和分析往往得益于其內(nèi)容的細(xì)致和有用,而得以深入到極致的程度,這種研究方法因而具有不同于大數(shù)據(jù)研究、但同樣重要的學(xué)術(shù)價(jià)值。因此,大數(shù)據(jù)研究的來臨并不會(huì)徹底取代小數(shù)據(jù)研究。當(dāng)下的大數(shù)據(jù)研究在數(shù)據(jù)不足、技術(shù)運(yùn)用不深入的情況下,更應(yīng)該與小數(shù)據(jù)研究相結(jié)合,共同驗(yàn)證研究結(jié)論。一方面,小數(shù)據(jù)研究的精細(xì)化思路與方法能夠?qū)⒋髷?shù)據(jù)研究細(xì)致化,另一方面,大數(shù)據(jù)資源的豐富性則會(huì)提升小數(shù)據(jù)的科學(xué)性。兩者相輔相成,共同提升了研究的價(jià)值。這就要求研究者不僅要留意裁判文書背后的隱藏信息[49],也要走出裁判文書數(shù)據(jù),主動(dòng)地、有目的地收集小數(shù)據(jù),進(jìn)行相關(guān)訪談,以核實(shí)、校正大數(shù)據(jù)背后的信息。如筆者曾在對非法證據(jù)排除規(guī)則的實(shí)證研究中得出了法庭對所涉證據(jù)的合法性進(jìn)行調(diào)查的案件占申請案件數(shù)的40%-50%這一數(shù)據(jù),即在約一半左右的案件中法庭并未開展合法性調(diào)查。在對法官進(jìn)行訪談后,筆者發(fā)現(xiàn)隱藏在該數(shù)據(jù)背后的一個(gè)重要原因是現(xiàn)階段法官不希望被告提出排非申請,因此實(shí)踐中傾向于通過“做工作”的方式勸解當(dāng)事人不申請或撤銷排非申請,即使提出申請法官也只是酌情進(jìn)行調(diào)查。[50]在其他多次實(shí)證研究中,筆者也都采用了類似的當(dāng)面訪談的調(diào)查方式。[51]
其四,應(yīng)當(dāng)充分認(rèn)識(shí)并利用大數(shù)據(jù)資源在發(fā)現(xiàn)新問題、創(chuàng)建新理論上的潛力。大數(shù)據(jù)研究并不等同于數(shù)據(jù)統(tǒng)計(jì)的經(jīng)驗(yàn)式研究,缺乏理論深度的事實(shí)性描述、脫離了抽象理論的數(shù)據(jù)調(diào)查與乏味的調(diào)查報(bào)告無異,遠(yuǎn)非學(xué)術(shù)研究所追求的終點(diǎn)。因此,我們應(yīng)當(dāng)重新審思數(shù)據(jù)與理論之間存在的張力。大數(shù)據(jù)法學(xué)研究首先是實(shí)證研究的一種新形式,關(guān)于實(shí)證研究的意義探討對于我們理解大數(shù)據(jù)研究有一定的啟發(fā)。如域外學(xué)者Fischman曾闡釋過實(shí)證研究對于法學(xué)理論發(fā)展的重要意義,他指出,重要的實(shí)證研究能夠引導(dǎo)法律改革,或能描述重要的、與法律有關(guān)的現(xiàn)象,或有助于理論之發(fā)展。[52]有的國內(nèi)學(xué)者則具體舉出了法律實(shí)證研究可能的四種法學(xué)作用:一是作為規(guī)范論證的實(shí)然基礎(chǔ);二是衡量法律的實(shí)效;三是描述法律論證與法律現(xiàn)象;四是發(fā)掘法制度相關(guān)行動(dòng)者(如法官、律師)的行為模式。[53]換言之,實(shí)證研究所依賴的經(jīng)驗(yàn)事實(shí)在被用于對法律現(xiàn)象或規(guī)律的闡釋之基礎(chǔ)上,也潛在地為后續(xù)的理論構(gòu)建提供了充分客觀的理據(jù)。大數(shù)據(jù)研究同樣具有上述意義。
更重要的是,以司法大數(shù)據(jù)為基礎(chǔ)的法律實(shí)證研究還具有傳統(tǒng)的實(shí)證研究所不具有的獨(dú)特價(jià)值,其具有的種種特征,如信息海量性、連續(xù)性、權(quán)威性及中立性等為自身贏得了相較于以往實(shí)證研究更為巨大的潛力空間,開拓了法學(xué)研究最前沿的問題域。如大數(shù)據(jù)所具有的空前規(guī)模這一特征便使得法學(xué)研究不再拘泥于傳統(tǒng)的研究對象和素材,某些類型的研究也因此成為可能,例如對稀有事件的研究、對細(xì)微差異的發(fā)現(xiàn)等等。于是我們完全可以在未來的大數(shù)據(jù)研究中考慮這樣一種新的思路:借助數(shù)據(jù)來發(fā)掘現(xiàn)實(shí)中的新問題,而非以既有問題為出發(fā)點(diǎn)甚至直接預(yù)設(shè)研究結(jié)論。一個(gè)很好的例子是國外學(xué)者使用了主題模型(topic modeling)這一無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)分析了從裁判文書網(wǎng)上獲取的20321份河南省法院行政庭裁判文書。以往的官方的統(tǒng)計(jì)數(shù)據(jù),即中國法律年鑒只將行政訴訟案件劃分為12個(gè)基本類型,無法反映出案件中的訴訟主張或涉案當(dāng)事人類型等信息,而他們研究中所使用的主題模型程序自行將樣本案件劃分出了4個(gè)大目錄下的50個(gè)小主題。在分析了各案件主題出現(xiàn)的頻率及其彼此間的聯(lián)系程度,并對部分裁判文書進(jìn)行了細(xì)致研讀之后,他們發(fā)現(xiàn)了一些無論是官方數(shù)據(jù)、新聞報(bào)道或是過往學(xué)術(shù)研究都不曾揭露過的現(xiàn)象和問題:如傳統(tǒng)觀點(diǎn)只是主張典型的“民告官”案件在行政訴訟中占比重較大,而他們的研究除證實(shí)了這一點(diǎn)外,還發(fā)現(xiàn)政府本身也是率先觸發(fā)行政法的積極使用者;如在22個(gè)小主題中都呈現(xiàn)出一種“案件串”(cases strings)的奇怪現(xiàn)象,即同一主題下有多個(gè)代表性案件實(shí)則涉及的是同一個(gè)爭議事件,例如在交通罰款這一主題下,有10個(gè)典型案件都牽涉到同一原告對由鄭州交警大隊(duì)所罰一系列款項(xiàng)所提起的訴訟;還比如在河南省范圍內(nèi)由企業(yè)提起的行政訴訟及有關(guān)環(huán)境污染的行政訴訟案件數(shù)量都一反常態(tài)的稀少。在此基礎(chǔ)上,他們總結(jié)道,主題模型這一無監(jiān)督的機(jī)器學(xué)習(xí)工具不僅可以幫助我們“質(zhì)疑及修正被廣為接受的觀點(diǎn)”,還能很好地“激發(fā)研究問題”。[54]質(zhì)言之,大數(shù)據(jù)如果以恰當(dāng)?shù)姆绞奖谎芯空咚占⒊浞滞诰蚱鋬r(jià)值,數(shù)據(jù)分析結(jié)果便極有可能呈現(xiàn)出客觀世界中尚未被揭露的真實(shí)及其隱藏的規(guī)律,由此,既有的理論可以被驗(yàn)證或是推翻,新的理論突破會(huì)在嶄新的經(jīng)驗(yàn)事實(shí)基礎(chǔ)上產(chǎn)生。
縱觀學(xué)術(shù)發(fā)展的歷史,隱藏在一座座令人嘆為觀止的學(xué)術(shù)高峰背后的是學(xué)者們一步一個(gè)腳印的攀登。作為新興的法學(xué)研究范式,大數(shù)據(jù)法學(xué)研究一方面為法學(xué)界打開了一扇潛力無限的大門,一方面也考驗(yàn)著進(jìn)入者迎接挑戰(zhàn)的能力。面對著裁判文書網(wǎng)等大數(shù)據(jù)平臺(tái)為中國法學(xué)研究提供的空前機(jī)遇,研究者不妨緊跟時(shí)代,大膽嘗試新的研究范式,在挫敗中尋求改良,在變革中推陳出新,共同促進(jìn)大數(shù)據(jù)法律研究欣欣向榮的發(fā)展。
*為便于閱讀,刪減了參考文獻(xiàn)等注釋內(nèi)容。
————————————————————————————————————————————————
萌泰數(shù)據(jù)是社會(huì)科學(xué)領(lǐng)域知名數(shù)據(jù)服務(wù)商和科研教學(xué)工具廠商,面向社會(huì)科學(xué)教育實(shí)踐、學(xué)術(shù)研究和社會(huì)服務(wù),提供一體化數(shù)據(jù)解決方案。目前旗下包括“銳研”和“智社”兩大子品牌。 “銳研”是萌泰數(shù)據(jù)旗下社會(huì)科學(xué)專題數(shù)據(jù)庫及科研服務(wù)平臺(tái),旨在為學(xué)者和科研人員提供專題數(shù)據(jù)庫和科研數(shù)據(jù)采集與分析服務(wù),以及各類社會(huì)調(diào)查研究方法工具支持。旗下產(chǎn)品包括五大特色數(shù)據(jù)庫、三大指數(shù)產(chǎn)品、六大社會(huì)調(diào)查研究工具以及智慧蜂眾包任務(wù)平臺(tái)等科研服務(wù)產(chǎn)品。 銳研產(chǎn)品矩陣 銳研中國:www.51diu.com 銳研專題數(shù)據(jù)平臺(tái):www.ringdata.com 銳研中國官方微信公眾號 智社官方微信公眾號 Campbell中國聯(lián)盟官方微信公眾號
- 上海市社會(huì)工作研究會(huì)2024年學(xué)術(shù)年會(huì)暨第二屆長三角金融社會(huì)工作論壇在滬舉行
- 人工智能如何改變社會(huì)科學(xué)的面貌?——AI與社會(huì)科學(xué)的學(xué)術(shù)對話紀(jì)實(shí)(下)
- 人工智能如何改變社會(huì)科學(xué)的面貌?——AI與社會(huì)科學(xué)的學(xué)術(shù)對話紀(jì)實(shí)(上)
- 校企協(xié)同 | 浙江越秀外國語學(xué)院到訪上海萌泰數(shù)據(jù)
- 2024年(第十六屆)國際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計(jì)研究會(huì)年會(huì)在哈爾濱商業(yè)大學(xué)成功舉辦
- 全面深化改革與中國社會(huì)學(xué)新征程:中國社會(huì)學(xué)會(huì)2024年學(xué)術(shù)年會(huì)在哈爾濱工程大學(xué)舉行
- 2024 萌泰·銳研 AI FOR SOCIAL SCIENCE 產(chǎn)品發(fā)布會(huì)成功舉辦