大數據與新聞報道
- 2016-02-15 11:09:00
- admin 轉貼
【本文提要】大數據指在互聯網保留下來的遠超出傳統數據庫的海量數據。新聞媒體通過使用一定的運算方法對大數據進行分析可以深化新聞敘事和對事實作出準確判斷,對未來進行預測報道,滿足用戶的定制信息要求,使得數據可視化和具有交互性。然而,利用大數據做新聞,記者還面臨著一系列值得注意的問題。我國新聞媒體運用大數據報道新聞方面尚處于初級探索階段,需要借鑒國際同行的經驗。
如今從每天日常開銷的記錄,到手機里成堆的電話號碼,再到全世界、全中國的社會經濟發展數據,都可以被記錄下來。我們已經被海量的數據所包圍。于是“大數據”這個詞流行起來了。大數據,即我們使用互聯網的各種路徑和形態時留下的海量信息和信息痕跡。最近兩年,人們在互聯網留下的信息和運用各種社交媒體留下的信息痕跡,等于自有記載以來人類保留的信息總和。僅一個百度搜索引擎,每天獲得的人們點擊搜索的數據,便有60億次。大數據的數據量之大,遠超出傳統數據庫軟件工具的抓取、儲存、管理和分析的數據量。對此,我們從計算機中儲存信息的單位之間的關系可以有所體會。
計算機最小的存儲單位是byte,1K=1024,Byte1M=1024K,1G=1024M,1T=1024G,1P=1024T,1E=1024P,1Z=1024P。2011年時,全球的數據量就已經達到1.8Z,預計2015年將接近8Z。面對這樣巨大的數據量,我們傳統的數據組織和處理模式已經無法滿足其需求,再加上大數據具有規模大、價值高、交叉復用等特征,不同行業、不同領域的數據之間的交換與相互利用也變得十分頻繁。這就意味著對于數據的處理、分析、分享、挖掘等能力有前所未有的提升。
顯然,大數據對人類把握自身整體發展具有重大意義。大數據也對社會各個領域把握自身的發展具有重大意義。大數據對新聞報道呢?盡管新聞是具體的,可一旦大數據的運算加盟新聞報道,便催生出大數據新聞,對新聞生產方式的影響也是巨大的。對不同領域、層面的大數據進行分析、處理后,可以通過可視化和敘事化的手段,創作出一種新的新聞報道方式。這種報道方式主要包括四個環節:對原始數據的收集、對數據的分析和過濾、將數據可視化、形成具體的新聞報道。
大數據新聞不是一夜之間就有的,它的萌芽是從計算機輔助報道(computer assisted reporting)開始的。20世紀50年代,美國就有媒體記者利用大型計算機對政府提供的數據庫中信息進行分析,以發現和調查新聞事實。記者在政府機構、企業等所發布的有限數據中,發現新聞選題或者將這些數據作為佐證發現、拓展報道深度的重要資料。而在如今大數據的背景之下,記者能夠獲取和利用的數據相較而言是那時的天文數字的倍數。
大數據新聞有別于精確新聞和數字新聞。精確新聞由美國學者、新聞記者菲利普·邁耶在20世紀60年代提出,指記者在采訪新聞時運用調查、實驗和內容分析等社會科學研究方法來收集資料、查證事實,從而報道新聞。這類新聞報道20世紀70年代風行于美國新聞界。80年代,中國新聞界開始運用這種新聞報道方法。它的特點是用精確的具體數據分析新聞事件,以避免主觀的、人為的錯誤。它側重于微觀的具體調查、實驗和內容分析。而數字新聞,則指以數字、公式、字母等靜態形式來輔助文字報道。現在所說大數據新聞,顯現的是對大數據的挖掘與處理的結果,可以通過復雜的交互式、動態化的圖片和視頻來呈現這類新聞。
一、大數據新聞的功能與優勢
目前,在大數據新聞制作上已經積累了經驗的國際媒體有《衛報》《紐約時報》《華盛頓郵報》等,但它們也處于探索階段。通過對國內外代表性媒體的大數據新聞實踐進行研究,可以總結出大數據新聞的四個功能,即描述、判斷、預測、信息定制。
1.新聞敘事
《衛報》網頁2012年1月5日發布了一個有關“阿拉伯之春”的大數據新聞報道。報道利用動態圖表,以時間軸為主線描述了自2010年12月一突尼斯男子自焚至2011年12月的一年間,17個阿拉伯國家發生的一場政治運動。網民可以通過這個四維動態的報道,清楚地從宏觀到微觀,全面了解阿拉伯之春在不同國家的不同表現形式。圖表上方設置了時間的推拉按鈕,網民推拉到自己想觀看的時間點,可以清楚地看到相同時間點上不同國家發生的相關事件。畫面的下方是各個國家的標簽,網民也可以通過國家標記,來關注某個具體國家在縱向時間軸上的政治演變進程。不同的政治事件用不同顏色來標示:綠色為群眾性抗議活動,淺藍色為國際上的相關反應,黃色為政治事件,紅色為政權更替。如果網民想了解某個事件的具體內容,點擊不同顏色的標示,隨即獲取深度報道的鏈接。這種新聞報道方式,將涉及十幾個國家、時間跨度長達一年的復雜的“阿拉伯之春”,以明晰的動態方式呈現出來,純文字報道難以達到這樣的傳播效果。
大數據新聞還能夠描述那些看不見的短期過程,比如流言如何在社交網絡上傳播。《衛報》通過追蹤分析260萬份推特內容,利用可視化動態圖表描述了從流言開始傳播到辟謠結束的整個過程。它也是以時間為軸,利用圓圈大小、顏色變化來描述整個過程,綠色的圈代表散布流言的推文,紅色的圈代表更正這個流言的推文,灰色的是中立的評價推文,黃色的是對流言持懷疑態度的推文。圈的大小代表了推文的影響程度,圈越大影響程度越大。如果想了解具體的內容,點到哪個圈,屏幕旁邊即刻呈現這個圈所代表的推文的發布者、發布日期、轉推人數等等信息。通過這個動態的演進過程,人們可以清楚地看到,社交網絡并不像一般想象的那樣,是一味擴散虛假消息的場所。其實在假消息出現不久,社交網絡上各種辟謠的消息就已經出現了。
從這兩個例子可以看出,大數據新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面,事件復雜的演進過程以及這個過程中的各個方面,都能描述得直觀且有趣。
2.事實判斷
2011年8月,一個黑人穆斯林男子乘出租車在倫敦街頭遭到警方攔截,雙方發生槍戰,該男子當街死亡。兩天后,約300人聚集在倫敦市中心的警察局進行抗議,后來演變成持續多天的騷亂事件,抗議者引燃了汽車、商店和公交車。當天夜里,倫敦其他地區也發生了類似襲警、搶劫、縱火等事件。一些媒體評論指出,這與貧富差距有關。英國首相卡梅倫接受采訪時,聲稱騷亂事件與貧富差距無關。
英國《衛報》記者利用大數據的分析結果,做了關于這一事件的系列報道,其中的一個報道主題,便是騷亂與貧困有沒有關聯。記者利用谷歌融合圖表,在倫敦地區地圖上標記出騷亂分子的居住地信息(黃色點)、實際發生騷亂的地點(灰色點),以及貧困地區分布(越偏紅色表示越貧窮)。根據這張倫敦市中心的圖,網民可以將圖擴展到整個大倫敦地區來看,也可以聚焦到具體的街區放大來看,觀察每個被標記的騷亂點的人流從哪里來,到哪兒去,從而清楚地看到貧苦與騷亂之間存在的某種關聯。這種關系的表達,比起單純的文字報道來,表現清晰,說服力強。
3.預測走向
2013年“十一”長假期間,九寨溝發生游客大量滯留現象并引發群體性事件。如果新聞媒體或旅游當局能夠在此前運用中國的局部大數據進行預測性報道,完全可以避免這樣的群體性事件發生。因為傳媒可以根據這方面的大數據,提前報道在哪個具體時間段內,有多少人從哪些地方前往九寨溝,其中男人、女人、老人、兒童各有多少等等。
這只是一個小例子,大數據能夠預測社會和人們日常生活中的各個方面。通過挖掘大數據,傳媒在技術上可以制作出可視化、交互式的圖表,告知很多事項。微觀的如流行疾病來襲、交通擁堵情況;宏觀的如經濟指數變動、某種社會危機的來臨等等。百度開辟了“百度預測”網頁,以“大數據,知天下”的口號推出,預測的產品有高考、世界杯、電影票房等等。它們后期準備上線的產品擴展到了更廣的領域,比如金融預測、房地產預測等等。
4.信息定制
利用大數據的分析結果,滿足網民的信息個性化要求,是國外媒體的最新嘗試。例如Five thirty eight數據博客,在2014年5月23日新辟讀者來信專欄“親愛的莫娜”。其第一期開篇語闡釋的目的是:“我開這個專欄是為了幫助讀者回答一些生活中重要的或者嚴肅的問題,比如我是不是很正常、我處在世界的哪個地位層面等等,目的不是為了給讀者答疑解惑,不是告訴讀者應該做什么和不應該做什么。恰恰相反,我提供數據來解釋、描述你的經歷。”
綜觀這個專欄,讀者的提問五花八門,比較嚴肅的如:“美國有多少人從來沒有喝過一滴酒?”“美國有多少男性空乘人員?”也有比較私人的如:“我該多久換一次襪子?”“婚前同居會不會導致離婚”等等。專欄作者利用美國范圍內的大數據,即刻將分析結果告知當事人,但避免給出指導性意見,僅告知各種數據的分析結果,讓網民自己依照分析結果來處理自己面臨的問題。這個專欄與傳統的紙媒讀者來信專欄不同,不是通過星座、血型、生辰八字或偽裝成閱歷豐富的專家,來提供些心靈雞湯式的回答,只用數據來說話。
這種嘗試在媒體中并不少見。2011年,BBC廣播公司曾根據2012年政府的財政預算聯合畢馬威會計師事務所做了一個預算計算器,用戶只需要輸入一些日常信息,例如買多少啤酒,用多少汽油等,就能夠算出新的預算會讓你付多少稅,明年生活會不會更好。
根據用戶需求提供個性化的大數據服務,是未來的發展趨勢。這些報道有一個共性,媒體都致力于以用戶的需求為中心,利用大數據詮釋宏觀社會現象對用戶的影響,或者回答用戶困惑的問題。媒體可以精準定位,經過后臺計算,按照用戶的接收習慣、工作習慣和生活習慣將服務推送到用戶眼前。
二、科學運用大數據做新聞
目前運用大數據分析做新聞尚處于摸索階段,媒體和當事記者在操作過程中要設想到一系列可能發生的問題。下面分三個方面做一論證。
1.數據的全面性和客觀性
大數據不等于全數據、真數據。記者既要保證從不同信息源拿到足夠多的數據,也要對這些數據的客觀性進行考察。與傳統的抽樣統計相比,大數據的優勢在于擁有足夠多的原始數據。互聯網時代的人際關系、社會活動、地理位置等一切信息都可以被轉換為數字,因而為全面獲取數據提供了可能性。大數據的來源有很多,新聞報道、門戶網站、搜索引擎、社交網站、政府和企業的統計、物聯網和傳感器的檢測,都是獲得數據的來源。全面獲取數據,是將大數據分析運用于新聞報道的必要基礎。
獲取了足夠多的數據之后,要對數據做客觀的判斷。一般人習慣默認數據是客觀的,是真實世界不容質疑的數字表征。事實上,正如《原始數據只是一種修辭》一書的作者麗莎·吉特曼所說:“數據從來都不可能是原始存在的,因為它不是自然的產物,而是依照一個人的傾向和價值觀念被構建出來的。我們最初定下的采集數據的辦法已經決定了數據將以何種面貌呈現出來。數據分析的結果看似公正客觀,其實價值選擇貫穿了構建到解讀的全過程。”[11]照相術剛發明之時,人們普遍認為它能夠擔當起真實再現客觀世界的任務。但后來人們發現,照片說謊的技巧比文字更加高超。如今對大數據的期待,類似于當初對照相術的期待。數據并不完全是客觀存在,也不完全是客觀存在的真實寫真。它的定義和界定、統計方法、統計范圍等等,包含和傳遞著某方面的價值判斷,也決定著數據反映真實的程度。
數據并不完全是客觀的,如果用推特的數據分析社會事件或者社會動態,記者要注意到推特的用戶主要為高收入的年輕群體,它并不能反映一定范圍內所有人的全貌。如果報道調用警察局的犯罪記錄數據庫,要同時考慮到為了降低犯罪率而刻意不把某些案件記錄在案的事情時有發生。因此哥倫比亞大學計算新聞學課程教授喬納森·扎瑟(Jonathan Stray)提出,記者在獲取數據時,一定要多問幾個問題:“這些數字是哪里來的?”“誰記錄了這些數字?”“怎么記錄的?”“出于什么目的收集這些數據?”“我們怎么才能夠知道數據是完整的?”“這些數據的人口統計信息是什么?”“用定量的方法解決這個問題是正確的嗎?”“這些數據中不包括什么?”“這些數據的結果會對誰不利?”“數據是始終如一的,還是由不同人統計的?”“為了生成這些數據,需要做出哪些隨意的決定?”“這些數據與其他來源的數據相符嗎?有誰已經分析過這些數據了?”……[14]記者面對數據,要多問幾個這樣的為什么和怎么樣,拿到元數據(關于數據的數據)。不僅了解數據是什么,還要了解數據的產生過程。
2.科學地分析數據
拿到所有數據之后,需要做的下一步工作是建立運算模型,通過大數據的分析,還原客觀的趨勢或現象。做這類敘事報道的數據分析,重在建立準確的分析模型,謹慎得出結論。數據自己不能說話,記者需要借助一系列算法在數據中挖掘出意義。算法不等于判斷,從數據世界進入現實世界是一個充滿風險的過程,稍有不慎就可能做出錯誤的報道。
判斷型報道要求記者通過大數據做出判斷,解釋不同事物之間的因果聯系。大數據通常只能揭示兩個變量之間的相關性,相關并不等于因果。A變量和B變量之間存在相關性,可能是A導致B,可能是B導致A,可能還有其他因素C、D……同時導致了A和B的變化;或者A和B之間的聯系只是偶然的等等。利用大數據分析發現相關性后,證明這種相關性的因果聯系,還需要記者的進一步調查和嚴謹的邏輯推論。
美國新聞聚合網站嗡嗡喂(buzzfeed)的數據科學管理員哈林(Ky Harlin)做了一些圖表,表達這個世界上匪夷所思的相關性,例如巧克力銷量上升和謀殺案件上升之間呈正相關、有機食品消耗量和孤獨癥患者數量之間呈正相關。[16]這些明顯風馬牛不相及的“相關”,不會導致讀者得出因果聯系的結論。如果記者報道中獲得兩組數據間的相關關系,這種相關關系又正好符合記者的預先判斷,誤解就很可能發生。
現在傳媒可以通過對大數據的分析做出預測型報道。預測是否準確,關鍵在于數據呈正態分布。但是,我們生存的世界是一個復雜的系統,“黑天鵝事件”時有發生。黑天鵝事件指的是偶發的重大稀有事件,它在意料之外,卻又改變一切。經濟危機、革命、“9·11”事件都屬于黑天鵝事件。黑天鵝事件呈冪律分布,不可預測。記者用大數據做報道時,應該對自己運用的工具抱有幾分懷疑,對現實世界再多幾分敬畏。
3.遵循新聞職業道德
現在各方面的大數據龐大且易得,以前幾乎不可能獲得的信息,例如特定人群的行為習慣、社交活動、健康狀況等等都有可能獲得。雖然掌握著用戶大量數據的主體不是傳統媒體,但媒體和掌握各方面大數據的組織可以建立以利益為背景的合作關系。當特定的報道題目涉及用戶隱私時,媒體有可能違背職業道德,利用這層關系獲取數據。媒體會不會為回答用戶的提問而挖掘牽涉用戶隱私的這部分數據?各種與新聞職業道德相關的是非判斷,會在媒體運用大數據分析進行新聞報道時,以新的形式再次挑戰新聞報道者的職業道德理念。
三、我國利用大數據新聞需要做的三件事
目前,國內利用大數據做新聞還處于起步階段。央視和百度2014年初合作的“據說春運”、“據說春節”專題是大數據新聞的有益嘗試。這兩組報道利用百度指數、百度地圖定位等技術,報道春運最火路線、春節期間人們最愛吃的菜等。這一嘗試目前僅偶爾為之,沒有成為一個固定的新聞節目。三大門戶網站都開辟了利用大數據解讀新聞的欄目:網易的數讀,搜狐的數字之道,新浪的圖解天下。它們主要將數據進行縱向時間上的或者橫向空間上的比較,靜態圖表呈現,與國外媒體的大數據新聞實踐尚存在較大差距。
有鑒于此,現在需要做的三件事是:
1.打破傳統思維,選題出新。選題上思路打不開,是目前大數據新聞難以引發人們關注的顯在問題。著眼點應是:哪些是以前不敢想象的報道、不能做到的報道?這方面,國外一些媒體的實踐已經給我們提供了很多參照系。
2.呈現新聞告別靜態圖表,與先進制作技術接軌。利用動態圖表和交互式圖表,生動展現新聞事件全貌,提高用戶參與度和界面友好度,是大數據新聞呈現的核心優勢。只要想到,對目前青年一代新聞工作者來說,做到應該不是難事。
3.新聞專業人員與IT專業人員結合,組成大數據新聞團隊。根據國際同行的經驗,大數據的新聞團隊均由新聞專業人員與產品研發人員、數據分析人員組成,后者充分融入媒體生產流程,其情形如同《芝加哥論壇報》的新聞應用團隊所說,他們就像潛入新聞編輯部的一支快樂黑客團隊,常在與記者面對面的交談中找到他們需要做的東西。