數據變現的歷史與未來
- 2019-04-22 14:27:00
- admin 轉貼
數據的規模效應擴大將我們帶入了大數據時代。
但是,大數據的投入與產出困擾著許多公司,數據究竟能夠如何變現?數據如何定價?而海量數據的爆發究竟對隱私保護會不會形成威脅?這些是困擾許多數據行業從業人員的問題。
數據變現的歷史與未來
上周末(11月28日-29日),WOT“互聯網+”時代大數據技術峰會在深圳舉行。峰會邀請了國內外一線互聯網公司的技術負責人、架構師,來分享他們的數據實踐經驗(大會專題頁面傳送門 http://wot.51cto.com)。
其中,360商業產品首席架構師劉鵬就分享了他對于“數據變現與交易”話題的觀點看法。在這場題為《數據變現的歷史與未來》的演講中,劉鵬結合自己在數據領域的實踐經驗,強調了“計算廣告(Computational Advertising)”的概念。
大數據文摘編者根據現場錄音及速記整理出了一些干貨,以下都是劉鵬分享的現場實錄,希望能給數據行業從業人員帶來一些啟示。
傳統數據(Data)和大數據(Bigdata)有何區別?
“通過采樣能解決的問題不是Bigdata問題”
大數據說白了是咨詢公司提出來的,工業界怎么看大數據?其中最關鍵的一點是——如果一個問題能夠通過采樣數據分析解決,那么就不是Bigdata問題。
我們從工業界來看,大數據和傳統數據最主要的區別,首先是交易數據和行為數據的區別。
交易數據指的是傳統的企業在業務運轉過程中不得不記的數據,像進銷存的數據、銀行的存取款利息、電信的話費清單,這些是必須要記錄的數據,不計的話業務就無法開展。這種數據的特點是量并不大,很難談到Bigdata,但是他的一致性和實時性要求很高,一點都不能錯。
而行為數據,指的是在業務的運行過程中,可記錄也可不記錄的數據。比如說對互聯網企業來說,網站的日志為什么要記下來?因為數字化的服務,服務器很自然就把日志記下來,但是一開始也不知道有什么用。后來大家在免費數據變現的過程中,才逐步考慮怎么把這些數據給用起來,它具有后延性。對于電信來說,它也有行為數據,比如說每個人上網記錄、通話內容,這些不是業務必須要記錄的,但是蘊含巨大的價值。
行為數據規模是巨大的,以廣告為例,創業公司做廣告的時候,每天的展示量可以到一百億,遠遠大于日常的交易量。所以它的處理機制完全不一樣。
第二點區別在于,傳統數據是采樣的分析,而大數據是全量的分析。
如果我們一個分析必須要用到全量的分析,它才是大數據問題。像廣告就是特別典型的全量數據分析,因為我要對每一個人都做targeting,中國有10億人,就要分給10億人,不可能只分給100萬人,否則對其他的所有人就都無法做精準投放。這種無法采樣的配置問題,就是大數據所關注的關鍵問題。
還有智能訂單和進貨的問題,商家要判斷一個貨物的銷量,他就需要這個貨物的全體銷量,而不可能僅僅采樣一部分進行分析,否則得到的結果沒有意義,無法反映單品的庫存和配送管理問題。每一件單品都要通過歷史的數據分析,這是大數據的本質。
第三點區別在于數據應用場景。
傳統應用場景是洞察,最典型的是財務報表,我們把企業的運營財務數據總結成三張表,給公司的決策層看,我們希望通過把運營數據、日志數據連成幾張表,放到所謂data science的運營決策鏈上,讓管理層更有效地調整運營結構。但是這件事我個人覺得,在實際當中很困難,為什么很困難?能看到這三張財務報表的人非常有限,再有能從里面提煉出往什么方向走的人更少。不是每一個人拿到報表都知道怎么用,我看到的實際情況,如果我們把大數據使用的場景收縮在洞察數據這塊,基本上沒有太成功的例子。因為從報表里看出方向,確實是需要非常專業的技能。
我們更希望看到的是第二種應用,個性化的應用。比如說廣告,用數據驅動用戶的畫像和標簽,然后標簽直接驅動廣告決策,這樣的過程是自動化的。大多數的情況下,自動化就是個性化,對每個人進行相應的決策分析。當然在有些情況下也不一定針對人,比如說對貨物的管理。
我個人覺得,大數據應用,主要就是看你有沒有在利用大規模的行為數據,能不能找到自動化的規律,能不能建立全量的數據分析方法。
數據變現模式是什么?
“廣告市場是數據變現的重要起點“
從歷史來看,數據變現最為成功的例子,在廣告領域。
它的模式非常簡單,左邊是一個廣告位,投放的是吉列剃須刀的廣告,假設廠商投放了1萬的廣告費,但一般情況下只有男性用戶會看,也就是說實際只有投放量一半的人可以看到。但是如果我有數據,我知道每個人的性別,我就可以把男性用戶單獨分出來,給他們投放吉列的廣告,相應地只收6000,這樣廣告商的投入產出比就提高了。
而剩下的一半女性流量,我可以再以6000的價格打包賣給一家化妝品的廣告。這樣的結果是什么?同樣流量,我掙到的錢從1萬變成了1.2萬,1萬是流量價值,而多出來2000塊錢,本質上就是數據變現的價值。我僅僅是知道每個人的性別,就可以多掙2000塊錢,而如果知道得更精細,還可以掙更多的錢。
計算廣告的四次數據使用革命
計算廣告核心的挑戰,有一個網站,有一個網頁,我知道用戶的身份,我要找到合適的廣告投放,目的是優化我的收入和成本差,也就是優化我的利潤,這個收入從數據叫做千次展示的期望收益(eCPM)。就是這樣的公式,我們所有的任務都是在最大化收入和成本的差。
實際上在計算廣告或者叫數據變現發展的歷史上,有過四次數據使用的變革:
第一次是把用戶性別數據等基本數據開始用在做受眾對象分析上。也就是剛才舉過的例子,目的是為了把數據變現加入到廣告里。
第二次革命是競價模式,契機是廣告主需要更精細的服務,除了性別還要知道他有沒孩子,孩子多大了等等。原理上知道的數據越多,廣告就可以賣更高的價格。但是在實踐上,沒法采用合約制的方法,比如和廣告主簽訂合同,約定在未來一周內有多少的量。
所以我們的廣告走向競價模式,競價本質是需求方定價,供給方采用撮合定價的方式,由價高者得的原則決定這個展示給誰。這種定價主要是在搜索引擎里得到了巨大的發展,結果大家也可以看得見,自從互聯網廣告產生了以后,數以百萬級的廣告主——原來沒有任何廣告渠道和機會的中小企業,得到了推廣的可能性,因為它只需要很少的預算,就可以得到一次非常精準的投放。
第三次變革,是實時競價和程序化交易時代的到來。比如京東,會根據他自己的數據加工出他的流失用戶人群,這個流失數據,媒體顯然是不掌握的。這就意味著,廣告交易要變成一種全開放的模式,媒體需要在每一個展示到來的時候,實時向需求方詢問你是不是需要這一次廣告機會,以及愿意出的價格,并且以競價的方式拍賣。這樣的方式實質上就解決了數據市場的交易問題,我可以用任何我希望的方式,并且按我的方式定價,它使得數據交易和交換規模化的發展起來。
第四次就是所謂場景數據革命。我們在移動上發現,banner、插屏這種方式,事實上并不能很好地獲得用戶的滿意,因為對用戶的打擾很強烈。從推特開始,包括現在的FACEBOOK,它們的廣告增長都可以看到,大家都是在采用一種原生化的方式,把廣告結合到用戶的場景數據去展示。用這個東西去規范廣告展示和廣告投放,這樣在移動互聯網上會獲得非常好的增長空間,這也是移動廣告有可能比搜索廣告具有更受歡迎的未來潛力的原因。
這是我們講的四次主要變化,可以看到廣告市場整體的推動力都是被動的,越來越精細。
“當前數據交易價格偏低”
中國這兩年有很多數據交易所出現,但是我個人的看法,這些都跟我們真正期望的數據交易沒有什么關系。我看了他們的交易,還是以報告和統計數據為主,這些都是傳統的咨詢和調研的業務。在北美市場,數據交易并不是交易數據報告,這個屬于洞察應用,我的看法并不是大數據交易。我們希望看到的是用戶數據和用戶標簽層面規模化、自動化的數據驅動業務。
關于數據交易我總結了三大定律,這是我們在實踐中碰到的問題:
1、真正的行為數據是不能關聯交換的,只能交易不能交換和共享
為什么這么說?因為數據本身就等于錢。如果現在有人說,我是一個創業公司,為什么騰訊不跟我做交換和共享?這個很荒謬,你還不如讓馬化騰把他帳戶上的錢打給你。你看到大量的數據是共享是發生在公司之間有更高層資本合作前提下的,否則是違反規律的。
2、數據交易該怎么做?
這里邊有很多的技術要點。顯然如果我有十個數據提供方,有十個數據需求方,如果大家點對點的方式做數據交易,這是很低效的模式。
廣告里的數據交易為什么就能發展起來?因為他是一個中心式的模式。所有的數據提供方都把自己的數據放在廣告交易所上,廣告交易所是分發廣告流量的核心節點,當需求方平臺(DSP)向廣告交易所整合,他不產生額外的消費,需求方和交易所是一種身份對等、自然合理的方式。要是沒有這種中心式的交易模式,數據交易在廣告這個場景下也不容易發展起來。
數據的交易還出實現了一個功能,數據交易實現了部分交易。我是一個廣告主,我只需要對一個地方的數據進行布局,只有在設定好的條件范圍內,數據交易才有產生的必要。而且收錢的時候,是根據是否贏得了展示機會,所以實現部分交易,讓很多規模不大的交易參與到這個過程中。
3、到底怎么給數據定價?
現在的方式還是不夠智能。數據產品和其他所有的實體產品或者我們剛才講的廣告產品都不一樣。比如說有一瓶水,你賣給甲以后不能再賣給乙,一個廣告展示機會給了第一個廣告主,第二個廣告主也就不可能再獲得。這種資源都有只能使用一次的特性,但數據資源不是。比如我知道一個人是男的,這份信息可以賣給兩個人,也可以賣給五個人、十個人。
但目前工業實踐中發現,一項數據賣給多人之后,極端情況是所有廣告主都知道了,他們都來競爭這個廣告投放的展位,結果是競價使得流量的價格抬起來,而數據獲得的增益反而少了。
我個人看到的現象是:數據交易蠻發達的,但是價格偏低,因為我們沒有找到核心定價原則,也沒有找到一個真正市場化的定價手段。只有找到了這個點,數據交易的規模才有可能迎來新一輪爆發的機會。
“大數據隱私遠比想象更嚴重“
關于數據的隱私問題,我每次都會講到這個問題,因為我覺得大家討論得很多,但理解并不是很透。
數據隱私并不是沒有標準,專家也經常討論一個觀點——“解決數據隱私問題,政府要立法、制訂規章制度”,這句話是對的,但是我要告訴大家的是,規章制度只能解決20%的隱私問題,剩下的80%還得靠產品和技術本身。
歐盟有一個A29原則,第一條是PersonalIdentifiable Information (PII) 不能使用,必須脫敏;第二條是一個用戶如果不希望你記錄他的隱私,他要有權力終止;第三點是要求不能長期屬性數據使用用戶的行為數據,用戶行為記錄兩年以上是不允許的。不論借用什么樣的介質,不論數據保護的手段多么高明,只要數據長期堆積,管理上的漏洞風險會很大,所以嚴格禁止保存兩年以上,而且不能進行備份。
這三點是最基礎的,但是對互聯網不太解決問題。有個例子是Netflix的推薦大賽。這個大賽需要由每個用戶來進行打分,而有個參賽者在參賽過程中看到了一條記錄,就發現了這個人是他的一個同事,然后又從這個同事的其他記錄發現,這個同事有很多觀看同性戀電影的歷史,這顯示是觸犯隱私的。這說明,我們原本對隱私有一個認識誤區,以為陌生人把你電話賣了就是風險,但事實上真正的顧慮是熟人,是對你的背景有充分了解的人。
在Netflix的例子中,那個同事把Netflix告上了法庭,Netflix覺得現有的技術框架下無法解決這個問題,于是這個大賽第二年就停辦了。但是在我們的互聯網中,我們沒法回退到過去,把所有的用戶數據都清理掉,否則整個互聯網業務體系都得崩盤。只能往前做著看,未來有沒什么辦法解決這個問題。
在這里我要提醒大家的是,脫敏是無法解決問題的。所以我個人的觀點,隱私是大數據使用頭上的達摩克利斯之劍。