根據抖音官方於1月5日發佈的2020年度數據報告,截至2020年8月,抖音日活躍用戶突破6億,截至2020年12月,抖音日均視頻搜索次數突破4億。
這其中,肯定有你我的功勞。
但是,身爲抖音重度用戶,你知道”抖音”這個名字是怎麼來的嗎?
4月20日,字節跳動旗下火山引擎的技術開放日在北京方恆時尚中心舉辦,字節跳動技術負責人楊震原就數據驅動以及A/B測試發表了演講,期間他也透露了“抖音”的名字由來。
“抖音”這一名字,綜合了A/B測試和人爲判斷的結果,“雖然‘抖音’這個名字在測試結果中排名第二。但大家覺得,這個名字更符合認知,更能體現它的形態,所以還是選了它”。
也就是說,“抖音”這一名字,其實綜合了數據驅動和人爲思考的共同決策,也和字節跳動的A/B測試緊密地綁定在一起。
數據驅動很重要,但也不是有數據就能驅動
“數據驅動”這個詞,對於身處於大數據時代的你我已是耳熟能詳。這種將數據作爲生產資料正向反饋到經營活動中的行爲,早已成爲了科學決策的代名詞。
但是,由於過分追求“數據決策”,也有不少企業會陷入“唯數據論”的誤區,認爲只要有數據支持,就能做出比人爲思考更科學的策略。
對於如何更合理地實現數據驅動,在2020年大數據文摘聯合清華大數據研究院聯合發佈的《頂級數據團隊建設全景報告》中就明確說明,“要依賴數據做決策,但不能只依賴數據做決策”。
在評估方法中有“經驗判斷”這一分類,即主要靠人的主觀判斷。在公司決策上,主要依靠於領導層的決策,這一方法目前在大多數公司中得以採用,不過究其問題,不僅在執行上困難重重,也很難糾正有偏性。
因此,在進行重大問題決策時,並不是有數據就可以的,還需要有效的驗證數據的方式。如何更好地利用數據,以實現真正的數據驅動,A/B測試就是不二選擇。
但要真正用好A/B測試,還需要理解,什麼是真正意義上的A/B測試,什麼是非A/B測試。
對於非A/B測試,可以用一個例子簡單說明。如下圖所示,這張照片用清晰的數據格式向我們證明了,巧克力吃得越多的國家,諾貝爾獎得主也就越多。也就是說,如果我們想多拿諾貝爾獎,就必須多吃巧克力了?
這個結論顯然是不靠譜的,兩個事件存在相關性,並不能直接推導出存在因果性。而如果在決策中出現這種情況,就會面臨不小的風險。
簡單公正,科學創新:A/B測試輔助數字化管理
說回A/B測試,這一方法並非互聯網公司原創。早在18世紀壞血病肆虐時,英國一位醫生就利用了A/B測試,他把患有壞血病的水手隨機分成六組,用不同方法進行治療,從而確定了檸檬和橘子能有效治療壞血病。這也是人類有記載最早的A/B測試。
如今,這一方法已經被互聯網公司納入數字化管理中來。企業在做產品/功能測試時,一般都會用到A/B測試,即把用戶分爲兩組,對照組和實驗組。對照組採用已有的產品或功能,實驗組採用新功能,要做的是找到他們的不同反應,並以此確定哪個版本更好。
如此看來,A/B測試似乎效率很低,既要分組,還要時刻關注影響因子的存在。
但是試想,當真正清楚一個事件以及它的影響因素後,我們就可以順着臺階步步爲營,反之這種進步就是間斷的。而A/B測試就是穩中求勝的關鍵一環。
在硅谷,互聯網公司早已將A/B測試納入企業數字化管理中來了,在LinkedIn、谷歌這類以數據爲主導的領先互聯網公司中早已形成了共識:A/B測試簡單公正,既跳過了爭論,也在一定程度上提倡數字化引導的科學創新。
LinkedIn全球數據科學團隊負責人許亞曾在採訪中對大數據文摘表示,在用戶看得到的與看不到的地方,LinkedIn都堅持着A/B測試。
以一款好的互聯網產品爲例,從搜索欄、搜索引擎算法、底部導航,到頁面文字大小,這些都是可以經過A/B測試的。除了這些用戶能看到的地方,在後端用戶看不到的地方,很多優秀的互聯網公司也會貫徹A/B測試思維。
比如打開APP要加載內容,需要從後端系統裏獲取數據,每次獲取20條數據還是100條數據,這個決策就涉及到平衡與取捨,獲取數據越多,頁面加載時間越長;獲取數據越少,用戶瀏覽的時候就需要頻繁刷新。所以到底一次獲取多少數據,也可以提前用A/B測試做決策。
這些看似微細的細節,實際上隱藏着了一款產品成功與否的密碼。
字節跳動的A/B測試實踐:要數據驅動,但不能唯數據論
那麼,在字節跳動內部,A/B測試是如何實踐的呢?早在2012年,字節跳動成立初期,張一鳴就已經開始在做A/B測試了。現在,內部來說,字節跳動每天大概新增1500個實驗,服務400多項業務,累計已經做了70萬次實驗。
或許也是基於此,外界有觀點把字節跳動稱爲“A/B測試公司”,對於此,張一鳴曾在公司7週年慶典上表示,“我發過一個微頭條:同理心是地基,想象力是天空,中間是邏輯和工具。AB測試只是一個工具而已,是測不出用戶需求的,同理心纔是重要的基礎。如果沒有同理心,做出的產品肯定沒有靈魂,不能滿足用戶需求。但是光有同理心還不夠,這樣只能做出有用的產品。想要做出彩的產品,想象力非常重要”。
不難看出,字節跳動所秉承的,正是“要依賴數據做決策,但不能只依賴數據做決策”的理念。
對於不能“唯數據論”這一觀點,楊震原直接指出,不能盲目迷信A/B測試,A/B測試並非萬能,在具體實踐上,A/B測試還存在着問題和操作難度。
比如在進行A/B測試之前,首先需要對實驗對象進行分組,再由操作者分別對兩組進行不同的操作,對比結果從而得出結論。這聽上去似乎很容易實現,但首先如何確定兩個分組的獨立性,就是一個值得考慮的問題。
以網約車的分配策略爲例,車輛與乘客的距離,乘車價格,車輛車型和時間都可以作爲策略標準,如果A同學做了A策略,B同學做了B策略,身爲決策者,我們應該如何評估呢?如果用A/B測試的話,那我們就需要把用戶分成兩組,A組用A策略,B組用B策略,兩組對比就能得出最終結論。
但細想一下,有沒有可能發生這種情況,即A組乘客和B組乘客同時打到同一個司機的車。也就是說,在實驗過程中,最終得出的統計指標可能存在交叉影響,但這種影響,只從實驗數據上是看不出來、也不容易分析的。
其次,解決了獨立性的問題之後,我們還需要考慮A/B測試中存在的置信度和長短期影響的問題。
也正是得益於此般成熟的數據驅動理念,A/B測試逐漸從今日頭條的策略推薦,到建立了支持大規模產品實驗的A/B測試平臺,之後陸續接入抖音、西瓜視頻等全線業務,A/B測試也相繼被應用於產品命名、交互設計、推薦算法、用戶增長、廣告優化和市場活動等方方面面的決策上。
如今字節跳動也希望將這項技術能力反哺給社會。以悟空租車爲例,該公司已通過火山引擎進行了70多次A/B測試,約有60%爲正向實驗,提升產品轉換率約40%,以往需要一週時間的需求覆盤數據分析,現在只要一天就能得到數據結論,更直觀地量化了需求價值,極大地提升了效率。
也正如楊震原所說,企業應充分意識到A/B測試的優勢和缺陷,對目標選擇適合的評估方法。在戰略型決策上,需要專家進行長期思考,在細節決策上,能做A/B測試就儘量做A/B測試,同時還要關注到量化分析的執行能力,真正做到數據驅動科學決策。
文章來源:知乎專欄
原文鏈接:https://zhuanlan.zhihu.com/p/366887585
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
文章推薦
◆跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!