淺談數據分析中的“暗物質”
我們分析數據,更重要的是看到數據中所隱藏的暗物質,即數據圖中妳看不見的數據邏輯知識。
開門見山,以下是某新聞媒體WAPAPPPC三端的分周中和周末的PV曲線,下面嘗試分析其中是否存在某種規律。
圖壹:newsAPP某周壹庫存
圖二:newsAPP某周日庫存
1.數據的準確性和代表性
在分析數據之前,有壹個非常重要的事情,大家往往會忽略,那就是數據的置信度是多少。
如果數據的準確性本身存在問題,那能產出正確結果的概率與買彩票中獎的概率大概相差無幾。即便數據是準確地,那還得證明數據具有代表性,妳是不是只抽取了壹天的數據,妳是不是只抽取了壹端的數據。
自然,很多時候,妳必須要進行抽樣,那妳更要謹慎了,因素那麽多,妳要保證自己在數據采樣過程中,考慮了應該考慮的因素。當然,這些數據對於這個結論很具有代表性,對於另壹個分析目的卻有可能完全沒有代表性,這些都不能壹概而論。
總之,數據準確性這個問題基本上要在分析之前給出確定的答案。而數據是否具有代表性這個問題由於比較復雜,盡可能的在分析之前考慮清楚的同時,在分析過程中,壹定要隨時保持著質疑精神,每向前壹步,都要重新考慮數據樣本是否還具有代表性。
圖三:newsWAP某周壹庫存
圖四:newsWAP某周末庫存
2.看圖說話
以下圖中數據經受過了我們多方位的考驗,所以數據基本準確,代表性具體要看妳的分析目的。
基本確定了準確性和代表性後,懷著高度質疑的精神,讓我們開始我們的分析之旅。
首先,單獨來看每壹個圖,大家可以很清晰的理解,這六條PV曲線都是與用戶的行為息息相關的。從各條PV曲線的變化來看,用戶7:00-8:00起床的比較多,22:00是壹個大家進入休息比較集中的時間點。淩晨的2:00-5:00是用戶活動的低谷,而波峰在時間上壹般是20:00-22:00。
圖五:newsPC某周壹庫存
圖六:newsPC某周日庫存
3.多項對比
說到這裏,細心的大家可能對圖五圖六中的數據表示質疑。因為它不符合我們剛才推出來的規律。
比如說,PC端壹天中的波峰時間是每天的9:00-10:00,而且周壹和周日的PV曲線變化非常大。?周壹的數據量大周日壹兩倍的樣子,而且周日白天的波動比較緩和,而周壹的波動非常大,存在多個波峰波谷。相反,APPWAP在周日和周壹的PV總量並未出現明顯變化,而且曲線變化規律也大抵相同。
4.挖掘暗物質
所謂暗物質,就是數據圖中妳看不見的數據邏輯知識。
所謂的數據分析或者挖掘就是挖掘各個數據之前的關聯,數據與暗物質之間的關聯。
仔細想來,我在“看圖說話”中的推理其實利用了先驗知識,也就是說大家有起床後看新聞和睡覺前看新聞的習慣,事實真的是這樣嗎?事實大概確實如此,但是在分端上可就不同了。
APPWAP都是移動設備上可以觸及的渠道,所以基本可以與用戶的起居習慣相吻合。但是PC端並非觸手所及,並不能完全和用戶的起居相吻合,畢竟妳零碎時間裏可以打開手機,卻不太可能去打開電腦。
上面我說到PC端並不能很好的反映用戶的起居,那他能反映用戶的什麽呢。想想我們平時使用PC的場景,PC端數據是否能反映用戶的上班時間特性?這點確實能給出數據支持。
壹是周壹比周日PV量大,說明周末使用PC的用戶少,周中上班時間就身不由己了,所以PV量比較大。周日和周壹的曲線波動也完全能理解了,周壹的PV的上漲時間落後於起居時間是因為那是上班時間,延遲的壹小時左右要吃飯要擠地鐵啊,9:00左右(上班的集中時間點)大家都坐定了,刷壹下新聞,PV量也就達到最大。
9:00-11:00期間的PV量幾乎沒有太大變化,但11:00開始就開始慢慢下跌了,壹直持續到12:00,這個可能與大家要逐漸去吃午飯相關,經過了12:00-14:00的午休階段,PV量存在壹定上漲。
等到下午17:00,又開始下降了,到了18:00基本降得差不多了。大家基本都已經下班了。所以,我們可以說周日創造PV的這些用戶,周中也會同樣創造PV,而周壹多出來的這些PV,其用戶特征完全符合上班特性,或者說其特性完全符合朝九晚五的上班族。
5.反復求證
妳的數據真的對了嗎? 那我們可以說創造PC端PV波動的這些朝九晚五的用戶是國企員工嗎?我們可以說國企員工上班就是看看新聞,聊聊天嗎?那我們是否可以說互聯網員工上班就不看新聞。
我們取得就是來看新聞的UV產生的PV數據,得出來的數據當然是這樣了。互聯網員工的行為是否被湮沒在其他原因中了?這是我上面提到的,始終要保持質疑精神。妳的數據對於之前的分析是有代表性的,可是分析以上問題,可以說是壹點代表性都沒有。
有些人數據分析時已經早有結論,往往數據選擇和分析時便會不自覺的有所傾向,難免會得出與自己假設相同的結論。所以我們在得出結論時,其實還要從其他很多方面進行求證,包括去掉某因素後,現象是否會消失等等。
6.妳的結論真的對了嗎?
之前朋友圈流傳著這樣壹個消息:有權威分析機構經過數據分析發現,戰狼2和瘋狂動物城的票房都很高,但兩者用戶重合度並不高。戰狼2的觀看用戶更喜歡喝冷飲,而瘋狂動物城的用戶卻更喜歡奶茶。但其實瘋狂動物城上映在冬季,而戰狼2上映在夏季。即便經過反復求證,我們也只能說是結論的置信度越來越高了,並不能證明這是對的。所以,除了盡可能的反復求證,剩下的方法是就是進行數據驅動策略的驗證了。驗證可以分為對照組等等,此處不再贅述。
7.猜猜他的用戶
如果妳細心壹點,便會發現newsAPPWAP兩端在周日的變動相比周壹稍稍延後,這估計和大家的周末作息習慣延後有關,至於為什麽延後並不多,那說明主流用戶肯定不是那些“上班睡不醒,周末睡不著的”年輕人啊。
8.寫在最後
就是這幾張平時用來做實時監控的曲線還能扯出這麽多東西來?來張照片給大家。
以下內容來自百度中國最著名“照片泄密案”,是由1964年《中國畫報》封面刊出的壹張照片引起的。在這張照片中,大慶油田的“鐵人”王進喜頭戴大狗皮帽,身穿厚棉襖,頂著鵝毛大雪,握著鉆機手柄眺望遠方,在他身後散布著星星點點的高大井架。日本情報專家據此解開了中國當時最大的石油基地–大慶油田的秘密。
1、他們根據照片上王進喜的衣著判斷,只有在北緯46度至48度的區域內,冬季才有可能穿這樣的衣服,因此推斷大慶油田位於齊齊哈爾與哈爾濱之間。
2、通過照片中王進喜所握手柄的架式,推斷出油井的直徑;
3、從王進喜所站的鉆井與背後油田間的距離和井架密度,推斷出油田的大致儲量和產量。有了如此多的準確情報,日本人迅速設計出適合大慶油田開采用的石油設備。當中國政府向世界各國征求開采大慶油田的設備方案時,日本人壹舉中標。
慶幸的是,日本當時是出於經濟危機,根據情報分析結果,向我國高價推銷煉油設施,而不是用於軍事戰略意圖。
所以數據分析中最重要的是什麽?暗物質啊!