摘要：社會統計調查數據庫是來自于國家統計局、各級統計機構、學術研究機構、商業機構公開的統計調查數據的集合。數據庫包括中國人口、就業、生活、社會服務、文化、公共管理、環境等與社會科學緊密聯系的相關的數據，并提供靈活方便的數據檢索服務

研究數據的重要性

隨著信息技術的發展和互聯網的普及，研究數據的發布、傳播變得越來越容易。以往科學出版中，只重視科研過程的最終產出——科學論文，忽視了支撐科學結論的研究數據。然而研究數據的利用不僅能夠對原論文論點做真偽鑒定，更重要的是它能夠促進更多科學產出，如芝加哥大學的綜合社會調查( General Social Survey，GSS) 數據被超過14 000個研究項目使用。為了促進研究數據的利用，《科學》雜志要求論文相關的數據和材料可以被讀者獲??；自然出版集團也于2014年推出了 Scientific Data，幫助研究者出版、發現、重用研究數據。
因此，越來越多的研究數據倉儲被建立起來，如美國哈佛大學的 Dataverse、密歇根大學的 ICPSR、約翰·霍普金斯大學的 Data Conservancy，英國開放知識基金會構建的CKAN和Datahub，國內復旦大學的社會科學數據平臺、中國科學院的科學數據云、商業性數據共享交易平臺——數據堂。截至目前，在國際研究數據倉儲注冊系統 re3data.org中注冊的倉儲數量達2000個分布于全球60多個國家。

Dataverse

Dataverse為哈佛大學定量社會科學研究所(IQSS) 數據科學團隊研發的研究數據管理系統。該系統的開發始于2006年，最初主要聚焦于社會科學數據管理，后引入了天文學、天體物理、生物醫學等學科數據，目前已經支持人文與社會科學、地理空間、天文與天體物理、生命科學、政治學等 12 種元數據方案。2012年，IQSS將Dataverse開源，隨后許多機構，如復旦大學、約翰·霍普金斯大學、挪威大學、海德堡大學等采用 Dataverse作為數據管理服務系統。

（1）數據管理 Dataverse

數據管理中定義了3個重要實體: 數據空間、數據集、數據文件。數據空間是一個虛擬容器實體，支持嵌套，整個數據空間可形成一棵倒立樹形結構。數據空間可以對應著組織機構、研究項目、研究者、期刊、教學課程等，與機構的組織架構接近，便于將數據集按機構部門、研究項目分門別類地組織。數據集是一個完整的、不可分隔的資源集合，研究者可以依據數據集提供的信息做出分析判斷，它依存于一個數據空間，在數據空間中可以包含0個或者多個數據集。數據文件是數據集的組成部分，是Dataverse中管理的最小粒度實體對象，它可以是說明文檔、Excel文件、調查問卷等任何格式的文件。數據空間、數據集、數據文件的結構見圖。
圖 1 Dataverse 數據組織結構

（2）用戶管理

在數據管理過程中，需要為不同用戶群體提供不同服務，因此 Dataverse 引入了用戶組概念——可以根據用戶的來源、管理員的控制對用戶分組管理。用戶組由組管理器管理，其中包含多個實現了Group Provider 的組提供者。在Dataverse中包含的用戶組有: 所有用戶、認證用戶組、Shibboleth 用戶組、IP 用戶組、自定義用戶組。

（3）權限管理

數據空間、數據集、數據文件的創建、完善和分享是一個協作過程，不同的成員應具有不同操作權限，Dataverse對數據空間、數據集、數據文件定義了13種訪問控制權限，可分為4類，包括：創建權限、讀取權限、更新權限、刪除權限。一個用戶可具有多種操作權限，在Dataverse中，多種權限的組合定義為角色。當用戶被賦予了角色時，則具有了角色所包含的權限。

（4）檢索服務

Dataverse 使用Solr對數據進行索引，索引對象包括數據空間、數據集、數據文件。Dataverse能夠對CSV、Stata DTA、SPSS POR、SPSS SAV、Data、Excel XLSX 文件進行處理，提取其中的變量名和變量標簽，因此它們也將作為數據文件的元數據信息而被索引。檢索服務可分為簡單檢索和高級檢索。簡單檢索將搜索所有字段，并返回匹配的數據空間、數據集和數據文件; 高級檢索將對指定字段進行搜索，相同數據對象的搜索字段采用 AND關系連接，不同數據對象的搜索字段采用OR關系連接。

（5）API接口

Dataverse 提供多種 API 接口，包括SWORD API、Native API、Search API、Data Access API。SWORD是一個輕量級的內容存放協議，使用 SWORD協議可以使得非 Dataverse系統將數據存放至 Dataverse 中。Dataverse 實現了SWORDv2的絕大多數功能，可以使用SWORD API創建、刪除、查看、發布數據集，添加、刪除文件。SWORD協議的開放性，使得Dataverse可以與其他系統具有較好的交互能力。

（6）在線分析

社會科學領域有大量的調查統計數據，并以標準的格式（如Excel、Stata、SPSS等）存儲，對這些數據進行在線分析是研究數據管理系統的一個重要功能。諸如IPSR和Nesstar 等系統均有在線分析功能，Dataverse 起源于社會科學數據管理，因此也有很強的在線分析功能IQSS數據科學團隊除了開發Dataverse系統外，還開發了Zelig和Two Ravens 兩個產品。Zelig是一個R語言統計框架，用于為大量R語言編寫的模型提供一個公共接口。Two Ravens是一個數據探索、統計分析、模型構建、元數據分析的Web應用工具。Dataverse使用Two Ravens和Zelig 對數據集進行在線分析，Dataverse 中的數據傳入到 Two Ravens 中Two Ravens 再利用Zelig等R語言包對數據進行分析，建模。

社會統計調查數據庫

國內對研究數據管理服務做了許多積極探索。在倉儲建設方面，從20世紀80年代開始，中國科學院便對科學數據管理進行了探索，目前已經建成了具有分布式海量存儲環境的科學數據云；武漢大學圖書館于2011年基于DSpace嘗試在校內開展科學數據管理服務；中國科學院文獻情報中心基于機構知識庫探索對非文本信息的管理；復旦大學基于Dataverse 3.3開展社會科學數據的管理服務。
為了支持科學研究，促進學術交流，推動開放獲取，實現研究數據的有效管理，萌泰科技積極探索建設社會統計調查數據庫，社會統計調查數據庫是來自于國家統計局、各級統計機構、學術研究機構、商業機構公開的統計調查數據的集合。數據庫包括中國人口、就業、生活、社會服務、文化、公共管理、環境等多個與社會科學緊密聯系的相關數據，并提供靈活方便的數據檢索服務。
數據庫的中心使命是收集、整理和開發中國社會科學數據，社會科學數據主要集中在社會、經濟領域，主要包括兩類數據: 一是國家統計部門發布的統計數據；二是為社會科學研究和政策制定而專門進行的調查的數據。社會科學的研究成果很大程度上影響著政府關于教育、工資、健康和養老金的政策，而每一項研究成果均一定程度上依賴于研究人員所采集的大集合、高質量的數據。高校社會科學數據主要包括學者研究實踐過程中的統計數據、實驗數據、派生或匯編數據、專項調查數據及報告、論文、衍生出版物等。

社會統計調查數據庫為學者提供更具競爭力的研究條件和數據服務，為學生提供更加堅實的社會科學調查方法和應用訓練，鼓勵跨學科的研究，建設有中國特色的社會科學數據平臺。

參考文獻：羅鵬程,朱玲,崔海媛,聶華.基于Dataverse的北京大學開放研究數據平臺建設[J].圖書情報工作,2016,60(03):52-58.

99re在线视频观看|日韩欧美国产亚洲制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

數據庫研究 | 社會統計調查數據庫

研究數據的重要性

Dataverse

（1）數據管理 Dataverse

（2）用戶管理

（3）權限管理

（4）檢索服務

（5）API接口

（6）在線分析

社會統計調查數據庫

99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

研究數據的重要性

Dataverse

（1）數據管理 Dataverse

（2）用戶管理

（3）權限管理

（4）檢索服務

（5）API接口

（6）在線分析

社會統計調查數據庫

99re在线视频观看|日韩欧美国产亚洲制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频