數據庫研究 | 社會統計調查數據庫
- 2019-07-03 17:35:00
- admin 原創
研究數據的重要性
隨著信息技術的發展和互聯網的普及,研究數據的發布、傳播變得越來越容易。以往科學出版中,只重視科研過程的最終產出——科學論文,忽視了支撐科學結論的研究數據。然而研究數據的利用不僅能夠對原論文論點做真偽鑒定,更重要的是它能夠促進更多科學產出,如芝加哥大學的綜合社會調查( General Social Survey,GSS) 數據被超過14 000個研究項目使用。為了促進研究數據的利用,《科學》雜志要求論文相關的數據和材料可以被讀者獲??;自然出版集團也于2014年推出了 Scientific Data,幫助研究者出版、發現、重用研究數據。因此,越來越多的研究數據倉儲被建立起來,如美國哈佛大學的 Dataverse、密歇根大學的 ICPSR、約翰·霍普金斯大學的 Data Conservancy,英國開放知識基金會構建的CKAN和Datahub,國內復旦大學的社會科學數據平臺、中國科學院的科學數據云、商業性數據共享交易平臺——數據堂。截至目前,在國際研究數據倉儲注冊系統 re3data.org中注冊的倉儲數量達2000個分布于全球60多個國家。
Dataverse
Dataverse為哈佛大學定量社會科學研究所(IQSS) 數據科學團隊研發的研究數據管理系統。該系統的開發始于2006年,最初主要聚焦于社會科學數據管理,后引入了天文學、天體物理、生物醫學等學科數據,目前已經支持人文與社會科學、地理空間、天文與天體物理、生命科學、政治學等 12 種元數據方案。2012年,IQSS將Dataverse開源,隨后許多機構,如復旦大學、約翰·霍普金斯大學、挪威大學、海德堡大學等采用 Dataverse作為數據管理服務系統。
(1)數據管理 Dataverse
數據管理中定義了3個重要實體: 數據空間、數據集、數據文件。數據空間是一個虛擬容器實體,支持嵌套,整個數據空間可形成一棵倒立樹形結構。數據空間可以對應著組織機構、研究項目、研究者、期刊、教學課程等,與機構的組織架構接近,便于將數據集按機構部門、研究項目分門別類地組織。數據集是一個完整的、不可分隔的資源集合,研究者可以依據數據集提供的信息做出分析判斷,它依存于一個數據空間,在數據空間中可以包含0個或者多個數據集。數據文件是數據集的組成部分,是Dataverse中管理的最小粒度實體對象,它可以是說明文檔、Excel文件、調查問卷等任何格式的文件。數據空間、數據集、數據文件的結構見圖。圖 1 Dataverse 數據組織結構
(2)用戶管理
在數據管理過程中,需要為不同用戶群體提供不同服務,因此 Dataverse 引入了用戶組概念——可以根據用戶的來源、管理員的控制對用戶分組管理。用戶組由組管理器管理,其中包含多個實現了Group Provider 的組提供者。在Dataverse中包含的用戶組有: 所有用戶、認證用戶組、Shibboleth 用戶組 、IP 用戶組、自定義用戶組。(3)權限管理
數據空間、數據集、數據文件的創建、完善和分享是一個協作過程,不同的成員應具有不同操作權限,Dataverse對數據空間、數據集、數據文件定義了13種訪問控制權限,可分為4類,包括:創建權限、讀取權限、更新權限、刪除權限。一個用戶可具有多種操作權限,在Dataverse中,多種權限的組合定義為角色。當用戶被賦予了角色時,則具有了角色所包含的權限。(4)檢索服務
Dataverse 使用Solr對數據進行索引,索引對象包括數據空間、數據集、數據文件。Dataverse能夠對CSV、Stata DTA、SPSS POR、SPSS SAV、Data、Excel XLSX 文件進行處理,提取其中的變量名和變量標簽,因此它們也將作為數據文件的元數據信息而被索引。檢索服務可分為簡單檢索和高級檢索。簡單檢索將搜索所有字段,并返回匹配的數據空間、數據集和數據文件; 高級檢索將對指定字段進行搜索,相同數據對象的搜索字段采用 AND關系連接,不同數據對象的搜索字段采用OR關系連接。(5)API接口
Dataverse 提供多種 API 接口,包括SWORD API、Native API、Search API、Data Access API。SWORD是一個輕量級的內容存放協議,使用 SWORD協議可以使得非 Dataverse系統將數據存放至 Dataverse 中。Dataverse 實現了SWORDv2的絕大多數功能,可以使用SWORD API創建、刪除、查看、發布數據集,添加、刪除文件。SWORD協議的開放性,使得Dataverse可以與其他系統具有較好的交互能力。(6)在線分析
社會科學領域有大量的調查統計數據,并以標準的格式(如Excel、Stata、SPSS等)存儲,對這些數據進行在線分析是研究數據管理系統的一個重要功能。諸如IPSR和Nesstar 等系統均有在線分析功能,Dataverse 起源于社會科學數據管理,因此也有很強的在線分析功能IQSS數據科學團隊除了開發Dataverse系統外,還開發了Zelig和Two Ravens 兩個產品。Zelig是一個R語言統計框架,用于為大量R語言編寫的模型提供一個公共接口。Two Ravens是一個數據探索、統計分析、模型構建、元數據分析的Web應用工具。Dataverse使用Two Ravens和Zelig 對數據集進行在線分析,Dataverse 中的數據傳入到 Two Ravens 中Two Ravens 再利用Zelig等R語言包對數據進行分析,建模。
社會統計調查數據庫
國內對研究數據管理服務做了許多積極探索。在倉儲建設方面,從20世紀80年代開始,中國科學院便對科學數據管理進行了探索,目前已經建成了具有分布式海量存儲環境的科學數據云;武漢大學圖書館于2011年基于DSpace嘗試在校內開展科學數據管理服務;中國科學院文獻情報中心基于機構知識庫探索對非文本信息的管理;復旦大學基于Dataverse 3.3開展社會科學數據的管理服務。為了支持科學研究,促進學術交流,推動開放獲取,實現研究數據的有效管理,萌泰科技積極探索建設社會統計調查數據庫,社會統計調查數據庫是來自于國家統計局、各級統計機構、學術研究機構、商業機構公開的統計調查數據的集合。數據庫包括中國人口、就業、生活、社會服務、文化、公共管理、環境等多個與社會科學緊密聯系的相關數據,并提供靈活方便的數據檢索服務。
數據庫的中心使命是收集、整理和開發中國社會科學數據,社會科學數據主要集中在社會、經濟領域,主要包括兩類數據: 一是國家統計部門發布的統計數據;二是為社會科學研究和政策制定而專門進行的調查的數據。社會科學的研究成果很大程度上影響著政府關于教育、工資、健康和養老金的政策,而每一項研究成果均一定程度上依賴于研究人員所采集的大集合、高質量的數據。高校社會科學數據主要包括學者研究實踐過程中的統計數據、實驗數據、派生或匯編數據、專項調查數據及報告、論文、衍生出版物等。
社會統計調查數據庫為學者提供更具競爭力的研究條件和數據服務,為學生提供更加堅實的社會科學調查方法和應用訓練,鼓勵跨學科的研究,建設有中國特色的社會科學數據平臺。
發表評論
新聞動態