大數據時代下的數據咨詢
- 2019-06-04 16:54:00
- admin 轉貼
大數據背景下的數據分析
數據量越來越大,越來越考驗我們的分析數據的能力,而對數據進行分析的前提就是如何去挖掘數據潛在的關聯、潛在的意義等等。數據挖掘需要“神馬樣”的流程?
我們在做咨詢報告的時候,會經常運用到一些邏輯,數據分析也是一樣的,也是需要一個比較準確的流程來規范我們的數據分析邏輯。比如,流程中的定義商業問題,即清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。這里探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。又比如,數據的轉換(流程中“模型建立”),就是將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的,而建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。
數據挖掘主要解決的四類問題
數據挖掘非常清晰地界定了它所能解決的幾類問題。這是一個高度的歸納,數據挖掘的應用就是把這幾類問題演繹的一個過程。下面讓我們來看看它所解決的四類問題是如何界定的:第一類,分類問題,屬于預測性的問題,其預測的結果是類別(如A、B、C三類)而不是一個具體的數值(如55、65、75??)。第二類,聚類問題,不屬于預測性的問題,它主要解決的是把一群對象劃分成若干個組的問題,劃分的依據是聚類問題的核心。第三類,關聯問題,有人說啤酒和尿布是沃爾瑪超市一個經典案例,也有人說是為了宣傳數據挖掘/數據倉庫而編造出來的虛構的“托”。我們就是要善于發現不同事物間的這種關聯。第四類,預測問題,主要指預測變量的取值為連續數值型的情況。值得注意的是,分類問題是預測一個未知類別的用戶屬于哪個類別,聚類問題根據選定指標,對一群用戶進行劃分,它不屬于預測問題。
大數據背景下數據分析方法的轉變
大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴隨機采樣。同時,由于我們研究的數據如此之多,以至于我們可以不再努力追求精確度。數據的集成和信息量大增的同時也促進了數據分析方法應用上的革新,首要的革新將來自抽樣模式的轉變,隨之而來的將是統計推斷方法可以得到更加深入的應用。抽樣模式的大變革
抽樣是統計分析數據收集的必備步驟,抽樣的科學性決定我們后續對總體估計的精確性,因此抽樣也是一門非常繁復的科學,對于非專業的數據搜集人員來說,如何確定抽樣誤差,樣本容量均是讓人頭疼的問題,但是如果大數據時代來臨,對于我們可以獲取的豐滿數據,就可以不再進行繁瑣的抽樣計劃,而是直接用總體進行分析,這樣不僅可以避免為了追求精度而帶來過多的耗費,而且可以免去人腦在抽樣方法選擇上的過多糾結。推斷統計的越發廣泛應用
很多統計分析方法都需建立在數據量大的基礎上完成,數據量越大,分析結果對決策更有效果。對于房地產行業來說,某個樓盤的評價我們通常只會給予定性的結論,數據的分析也無非就是橫向縱向對比;而在克而瑞新房定價的系統建立過程中,可挖掘出項目一系列指標的評分數據,從而對影響項目的各類因素進行定量化處理,在信息完全的情況下我們可以考慮更多的因素,進行更詳盡的分析。
大數據背景下深入統計分析案例:新房定價
無錫克而瑞自2013年3月開始著手新房定價工作,其中對無錫78個在售的重點項目進行了覆蓋29個指標的定量評分工作,量表采用10分制,分數越高代表項目對應的該項指標做的越好。通過此類數據,他們可以進行78個項目較為全面的綜合評價分析,所用的統計方法大集合起來有如下幾個:聚類分析
聚類分析是采用歐式距離計算各項目最終指標得分的最近距離,得出同類項目分類。(圖1,表1)


表1的分析結果告訴我們,無錫在售項目整體活躍度較高,有41%的項目保有較高較持續的市場熱度,此類項目多數以剛需和首改為定位;高端項目約占13%,屬于市場的小部分,但此類項目在無錫市均享有較好的口碑,得以滿足改善需求;中、高、低端排布呈現中端優勢,服從正態分布,與一個穩定的市場形象較貼合。
因素分析
無錫克而瑞對29個指標進行多元降維處理,使得最終所有的指標的解釋權歸為四個主因素。本次分析結果顯示主因素對29個指標的方差解釋貢獻率為54%,對于量表得分指標來說已經是一個較高的貢獻率。從表2的降維結果可以看出:因素一主要的承載對象為整體規劃、物業管理,社區內部的交通組織、開發商品牌等于項目綜合形象有關的指標,因此命名為綜合形象因素;而因素二受產品的設計、價格的上行動力有關,命名為價格驅動因素;因素三載荷較重的因子有商業配套、所在板塊能級等,命名為配套及競爭力因素;因素四同樣觀察其主要載荷命名為產品定位因素。通過此方法我們把復雜的29個指標最終綜合為四個綜合的影響因素,使得分析更加便利。
結構方程式模型
通過以上的兩種分析過后,我們對無錫在售項目產生了初步的印象,最后可以通過結構方程式模型(AMOS)來進行因素之前的路徑分析,從而得知客戶對于項目的整體影響主要源自于哪些因素,各因素之間又會產生何中關聯性,以便與我們日后更好進行咨詢服務。
從結果可以看出,各個因素之間存在一定的相關性,從價格驅動因素和配套及競爭力因素之間的相關程度,可以看出開發商要想賣出高價必須提升項目的自身配套和競爭力等實實在在的角度,其中主要交通狀況和商業配套是客戶最為關注的;項目的整體形象對于價格也有較高的驅動作用,其中影響最大的指標則為開發商形象和物業及會所的管理質量。

大數據背景下深入統計分析案例:市場監測
中國房地產市場研究已經走過了20多年的歷程,我們已經能夠熟練地掌握并運用一些常規的數據分析方式,比如說房地產市場供求量價的走勢、結構性的分析、存貨及去化周期的分析等一系列數據指標。但是我們靜下心來仔細想想不難發現,這些傳統的數據分析的已經逐漸無法滿足我們對于數據研究的需求,我們需要尋找一些新的分析點來突破我們的慣性思維,也就是數據挖掘及分析思維的創新。
借鑒證券市場
古人云:“三人行,必有我師?!睌祿治鲆彩侨绱?,我們可以去借鑒其他對于數據分析較為成熟的領域。
從縱向到橫向
權重影響能力
證券市場常用“二八法則”來分析市場的走勢和格局,樓市中也是可以通過此法則來分析和研究,我們可以通過研究TOP10、TOP20、TOP30、TOP50成交面積占比走勢來判斷市場的好壞,因為我們有著一個共同的認知,市場好的時候,項目成交應該是百花齊放,弱市中才會出現個別項目獨領風騷的局面。這個通過文中的趨勢圖也很容易得到驗證。
股價圖
股價圖主要是反應每支股票每天價格運行的趨勢,我們可以將一個項目或者板塊的日度成交價格走勢進行匯總,通過股價圖來表現他們一年或者半年的一個格局,就可以很明顯地看出這個項目或者板塊的價格運行趨勢。
量比
量比=現成交總手/(過去5日平均每分鐘成交量×當日累計開市時間(分)),在樓市中,我們可以用他來分析一個項目未來的趨勢如何,在樓市中運用如下:量比=本周(月)成交量/(過去5周(月)平均成交量。在運用量比的同時,最好是結合股價圖說明,將量能與價格結合到一處,更能反映實質的問題。挖掘數據之間的關聯性
我們在研究房地產市場的時候,往往會忽略這個城市或者這個板塊到底有多少個在售項目,這些在售項目有多少個是持續有成交,但是真正將這兩點進行量化后進行縱向和橫向的分析,就不難看出其中的關聯。如圖所示:通過市場成交項目的個數以及成交項目占總體在售項目的比例可以來判斷目前市場的活躍程度,這里主要是通過絕對值和相對值來與今年以及歷年的同期水平進行對比,同樣的原理可以適用于每個板塊。
當然這些僅僅是我們在處理和分析一些數據時需要考慮的問題,在進行專業的數據分析的過程中,我們還是需要結合一些專業的數據統計的模型來給予更好的分析論證數據。
發表評論
新聞動態