国产精品成人一区二区三区,7777色鬼xxxx欧美色妇,国产精品久久久久久人妻精品,欧美精品中文字幕亚洲专区,欧美精品xxxxbbbb

Netflix是如何做決策的?(二):什么是 A/B 測(cè)試?

神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。

編者按:決策是行動(dòng)的指南。不管是個(gè)人還是企業(yè),每天都要面臨著無(wú)數(shù)的決策。決策的好壞會(huì)對(duì)結(jié)果產(chǎn)生巨大影響,如何做好決策是每個(gè)人都要上的一門必修課。在Netflix這里,他們采用了一種以實(shí)驗(yàn)為導(dǎo)向的決策流程,先小范圍地對(duì)不同方案進(jìn)行測(cè)試,根據(jù)對(duì)比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測(cè)試做出決策的系列文章。本文是系列文章的第二篇。后續(xù)文章還將介紹支持 A/B 測(cè)試的統(tǒng)計(jì)數(shù)據(jù)、實(shí)驗(yàn)在 Netflix 中的作用、Netflix對(duì)基礎(chǔ)設(shè)施的投資是如何為實(shí)驗(yàn)提供支撐和擴(kuò)展的,以及 Netflix內(nèi)部實(shí)驗(yàn)文化的重要性。

劃重點(diǎn):

A/B 測(cè)試是簡(jiǎn)單的受控實(shí)驗(yàn)

A/B測(cè)試僅改變受測(cè)項(xiàng),其他一切都保持不變

一切都要從想法開(kāi)始

Netflix 是如何做決策的?(一):介紹

A/B 測(cè)試其實(shí)就是一個(gè)簡(jiǎn)單的受控實(shí)驗(yàn)。比方說(shuō),我們做出了一個(gè)假設(shè)!— 我們想知道一種把 TV UI 里面所有的盒子都倒置起來(lái)的新產(chǎn)品體驗(yàn)對(duì)我們的會(huì)員是不是有好處。

圖 1:我們是怎么確定產(chǎn)品體驗(yàn) B(倒置的的盒子藝術(shù))對(duì)我們的會(huì)員來(lái)說(shuō)是不是會(huì)體驗(yàn)更好

為了進(jìn)行這個(gè)實(shí)驗(yàn),我們會(huì)取出會(huì)員的一個(gè)子集,這通常是一個(gè)從所有會(huì)員中隨機(jī)提取的簡(jiǎn)單樣本,然后采用隨機(jī)方式將將該樣本平均分配成兩組。“A”組(通常叫做“控制組”)看到的仍然是基本的 Netflix UI 體驗(yàn),而“B”組(通常稱為“治療組”)會(huì)給予改進(jìn)該會(huì)員的特定體驗(yàn)的假設(shè)獲得不同的體驗(yàn)(后面還會(huì)談到具體的假設(shè))。在本例中,B 組收到的是倒置的盒子藝術(shù)。

接下來(lái)我們就是等,然后把 A 組中的各種指標(biāo)跟 B 組中的各種指標(biāo)進(jìn)行對(duì)比。部分指標(biāo)會(huì)跟特定假設(shè)相關(guān)。對(duì)于 UI 實(shí)驗(yàn)來(lái)說(shuō),我們會(huì)研究跟新功能的各種變體的互動(dòng)情況。對(duì)于旨在在搜索體驗(yàn)當(dāng)中提供更相關(guān)結(jié)果的實(shí)驗(yàn),我們會(huì)衡量會(huì)員是不是通過(guò)搜索找到了更多的可觀看內(nèi)容。在其他類型的實(shí)驗(yàn)里,我們可能會(huì)關(guān)注更加技術(shù)性的指標(biāo),比方說(shuō)應(yīng)用加載所需的時(shí)間,或者我們?cè)诓煌W(wǎng)絡(luò)條件下所能夠提供的視頻質(zhì)量情況。

圖 2:一個(gè)簡(jiǎn)單的 A/B 測(cè)試。我們利用隨機(jī)分配將 Netflix 會(huì)員的隨機(jī)樣本分為兩組?!癆”組收到的是當(dāng)前的產(chǎn)品體驗(yàn),而“B”組收到的是我們認(rèn)為會(huì)改進(jìn)Netflix 體驗(yàn)的變化。在本例中,“B”組收到了“倒置”的產(chǎn)品體驗(yàn)。然后我們?cè)賹?duì)比兩組之間的指標(biāo)。至關(guān)重要的是,隨機(jī)分配確保了就平均而言,兩組之間的其他一切都保持不變。

通過(guò)包括倒置的盒子藝術(shù)這個(gè)例子在內(nèi)的眾多實(shí)驗(yàn),我們需要仔細(xì)思考指標(biāo)告訴了我們什么。假設(shè)我們審視的是點(diǎn)擊率,這個(gè)指標(biāo)衡量的是每一種體驗(yàn)下點(diǎn)擊了一部作品的會(huì)員占比。光靠這個(gè)指標(biāo)本身來(lái)衡量新 UI 是否成功可能會(huì)造成誤導(dǎo),因?yàn)闀?huì)員可能只是為了看作品更輕松點(diǎn)(讓倒置的變成正常)而點(diǎn)擊了它。在這種情況下,我們可能還希望評(píng)估一下有多少會(huì)員隨后就離開(kāi)此作品了而不是繼續(xù)播放的。

在所有情況下,我們還會(huì)考察更綜合的指標(biāo),希望能夠捕捉到 Netflix 為我們的會(huì)員提供的快樂(lè)和滿足感。這些指標(biāo)包括會(huì)員與 Netflix 互動(dòng)程度的衡量標(biāo)準(zhǔn):我們正在測(cè)試的想法是不是有助于我們的會(huì)員在任何特定的晚上把 Netflix 當(dāng)作自己的娛樂(lè)目的地?

這其中還涉及到很多的統(tǒng)計(jì)數(shù)據(jù)——差異大到什么程度才可看作顯著?測(cè)試需要多少會(huì)員才能檢測(cè)出給定量級(jí)的影響?怎么才能最有效地分析數(shù)據(jù)?我們會(huì)在后續(xù)文章里面介紹其中的一些細(xì)節(jié),重點(diǎn)會(huì)放在高級(jí)直覺(jué)上。

讓其他一切保持不變

因?yàn)槲覀兪怯秒S機(jī)分配的放肆創(chuàng)建的對(duì)照組(“A”)和治療組(“B”)的,所以我們可以確保平均而言,兩組中的個(gè)體在可能對(duì)測(cè)試有意義的所有維度上都是均衡的。比方說(shuō),隨機(jī)分配可確保 Netflix 會(huì)員的平均租期在對(duì)照組和治療組之間沒(méi)有顯著差異,在內(nèi)容偏好、主要語(yǔ)言選擇等方面也沒(méi)有顯著差異。兩組之間唯一剩下的區(qū)別就是我們正在測(cè)試的新體驗(yàn),確保我們對(duì)新體驗(yàn)影響的評(píng)估不會(huì)存在任何偏見(jiàn)。

為了理解這一點(diǎn)的重要性,我們不妨思考另一種做出決定的方式:我們可以向所有的Netflix 會(huì)員推出新的倒置盒子藝術(shù)體驗(yàn)(如上所述),看看我們其中的一個(gè)指標(biāo)是不是會(huì)發(fā)生重大變化。如果出現(xiàn)了好的變化,或者沒(méi)有出現(xiàn)任何有意義的變化的證據(jù),我們將保留新的體驗(yàn);如果出現(xiàn)不好變化的證據(jù),我們就回滾到之前的產(chǎn)品體驗(yàn)。

假設(shè)我們這么做了(再次地——這是個(gè)假設(shè)?。⑶以诋?dāng)月的第 16 天切換到倒置體驗(yàn)。如果我們收集到以下數(shù)據(jù)的話,你會(huì)怎么做?

圖 3:第 16 天發(fā)布的全新倒置盒子藝術(shù)產(chǎn)品體驗(yàn)的假設(shè)數(shù)據(jù)。

數(shù)據(jù)看起來(lái)挺不錯(cuò):我們發(fā)布了新的產(chǎn)品體驗(yàn),會(huì)員的參與度大為提高!但是,如果你有了這些數(shù)據(jù),再加上產(chǎn)品 B 將 UI 里面所有的盒子藝術(shù)倒置過(guò)來(lái)的知識(shí)的話,你對(duì)新產(chǎn)品體驗(yàn)是不是真的對(duì)我們的會(huì)員有好處這一點(diǎn)又有多大信心呢?

我們是真的知道新產(chǎn)品體驗(yàn)是導(dǎo)致會(huì)員參與度提高的原因嗎?還存在哪些可能的解釋?

如果你還了解到, Netflix 在(假設(shè)的)推出全新倒置產(chǎn)品體驗(yàn)的同一天還發(fā)布了一部熱門作品,比如新一季的《怪奇物語(yǔ)》(Stranger Things)或《布里杰頓》(Bridgerton),或者像《活死人軍團(tuán)》(Army of the Dead)這樣的熱門電影的話,又該怎么說(shuō)? ? 現(xiàn)在我們對(duì)會(huì)員參與度提高可能就有不止一種解釋了:也許是因?yàn)樾庐a(chǎn)品體驗(yàn),也許是因?yàn)樯缃幻襟w上對(duì)熱門作品的討論,也可能兩者兼而有之?;蛘呖赡芡耆莿e的東西。關(guān)鍵是我們不知道新產(chǎn)品體驗(yàn)是不是導(dǎo)致了參與度的提高。

反過(guò)來(lái),如果我們對(duì)倒置盒子藝術(shù)產(chǎn)品體驗(yàn)進(jìn)行 A/B 測(cè)試,讓一組會(huì)員接收當(dāng)前的產(chǎn)品體驗(yàn)(“A”),另一組會(huì)員這一整月收到的都是倒置產(chǎn)品體驗(yàn)(“B”)的話,又會(huì)怎樣?以下是收集到的數(shù)據(jù):

圖 4:新產(chǎn)品體驗(yàn) A/B 測(cè)試的假設(shè)數(shù)據(jù)。

在這種情況下,我們得出了一個(gè)不一樣的結(jié)論:倒置產(chǎn)品導(dǎo)致參與度普遍較低(這并不奇怪?。?,而且隨著熱門作品的發(fā)布,兩個(gè)群體的參與度都增加了。

A/B 測(cè)試讓我們可以做出因果陳述。我們僅向 B 組引入了倒置產(chǎn)品體驗(yàn),并且由于我們是把會(huì)員隨機(jī)分配到 A 組和 B 組的,因此兩組之間的其他一切都保持不變。所以,我們可以得出倒置產(chǎn)品很可能導(dǎo)致參與度降低的結(jié)論(下一次再詳細(xì)介紹)。

這個(gè)假設(shè)的例子很極端,但一條普遍適用的經(jīng)驗(yàn)是總有些事情是我們無(wú)法控制的。如果我們針對(duì)所有人推出一種體驗(yàn),并在改變前后簡(jiǎn)單地衡量一個(gè)指標(biāo)的話,那么這兩個(gè)時(shí)間段之間可能存在的相關(guān)差異就會(huì)阻止我們得出因果結(jié)論。也許出現(xiàn)了一個(gè)正在變火的新作品。又或者是新的產(chǎn)品合作解鎖了更多的用戶??倳?huì)有一些我們不知道的事情。在可能的情況下,進(jìn)行 A/B 測(cè)試可讓我們證實(shí)因果關(guān)系,并自信地對(duì)產(chǎn)品進(jìn)行變更,因?yàn)槲覀冎?,我們的?huì)員會(huì)用自己的行為對(duì)改變進(jìn)行投票。

一切從一個(gè)想法開(kāi)始

A/B 測(cè)試從一個(gè)想法開(kāi)始——我們可以對(duì) UI進(jìn)行修改、幫助會(huì)員查找內(nèi)容的個(gè)性化系統(tǒng)、針對(duì)新會(huì)員的注冊(cè)流程,或我們認(rèn)為會(huì)對(duì)會(huì)員產(chǎn)生積極影響的Netflix 體驗(yàn)的任何其他部分。我們測(cè)試的某些想法是漸進(jìn)式的創(chuàng)新,比方說(shuō)改進(jìn)Netflix 產(chǎn)品中出現(xiàn)的文案的手段;有些更為雄心勃勃一些,比方說(shuō)讓Netflix最終在用戶界面中呈現(xiàn)“十大排行版”的測(cè)試。

跟面向全球 Netflix 會(huì)員推出的所有創(chuàng)新一樣,Top 10 一開(kāi)始只是一個(gè)想法,后來(lái)變成了可檢驗(yàn)的假設(shè)。此處的核心思想是將每個(gè)國(guó)家/地區(qū)流行的作品呈現(xiàn)出來(lái)可在兩個(gè)方面令我們的會(huì)員受益。首先,通過(guò)呈現(xiàn)流行內(nèi)容,我們可以幫助會(huì)員分享體驗(yàn)并通過(guò)對(duì)相關(guān)流行作品的討論而建立相互的聯(lián)系。其次,我們可以通過(guò)滿足人類成為共同對(duì)話的一部分內(nèi)在愿望,幫助會(huì)員選擇出一些精彩的內(nèi)容來(lái)觀看。

圖 5:Web UI 上的Top 10 體驗(yàn)示例。

接下來(lái),我們就把這個(gè)想法變成一個(gè)可檢驗(yàn)的假設(shè),也就是“如果我們進(jìn)行 X 變更,它將會(huì)以某種方式改善成員體驗(yàn),從而令指標(biāo) Y 得到改善”。在Top 10 這個(gè)例子當(dāng)中,我們的假設(shè)如下:“向會(huì)員展示Top10 體驗(yàn)將幫助他們找到值得觀看的內(nèi)容,增加會(huì)員的快樂(lè)和滿意度?!?這一測(cè)試(以及眾多其他測(cè)試)的主要決策指標(biāo)是衡量會(huì)員跟 Netflix 的互動(dòng)度:我們正在測(cè)試的想法是不是有助于我們的會(huì)員在任何特定晚上選擇 Netflix 作為自己的娛樂(lè)目的地?我們的研究表明,從長(zhǎng)遠(yuǎn)來(lái)看,該指標(biāo)(細(xì)節(jié)此處不談)與會(huì)員保留訂閱的可能性是相關(guān)的。我們對(duì)其他業(yè)務(wù)領(lǐng)域,比方說(shuō)注冊(cè)頁(yè)面體驗(yàn)或服務(wù)器端的基礎(chǔ)設(shè)施等的測(cè)試,采用的是不同的主要決策指標(biāo),但原則是一樣的:就是要看我們?cè)跍y(cè)試期間可以測(cè)量的東西哪些從長(zhǎng)期來(lái)看能為我們的會(huì)員提供更多價(jià)值。

除了測(cè)試的主要決策指標(biāo)以外,我們還考慮了很多次要指標(biāo),還要看這些會(huì)如何受到我們正在測(cè)試的產(chǎn)品功能的影響。這里的目標(biāo)是把從用戶行為如何響應(yīng)新產(chǎn)品體驗(yàn)到我們主要決策指標(biāo)的變化的整條因果鏈表述清楚。

闡明產(chǎn)品變更與主要決策指標(biāo)變化之間的因果鏈,并監(jiān)控這一鏈條上的次要指標(biāo),可以幫助我們建立信心,讓我們確信主要指標(biāo)的任何變動(dòng)都是我們假設(shè)的因果鏈的結(jié)果,而不是新功能的某些意外后果的結(jié)果(或誤報(bào)——在后面的系列文章里面我們會(huì)詳細(xì)介紹?。?duì)于Top 10 的A/B測(cè)試來(lái)說(shuō),參與度是我們的主要決策指標(biāo)——但我們也會(huì)檢查其他一些指標(biāo),比如Top 10排名當(dāng)中出現(xiàn)的那些作品的作品級(jí)瀏覽,也就是源自那一行而不是UI的其他部分的瀏覽量占比等等。如果符合假設(shè)的話,提供Top 10的體驗(yàn)應(yīng)該對(duì)我們的會(huì)員是有好處的,預(yù)期治療組中出現(xiàn)在Top 10的作品的瀏覽量應(yīng)該會(huì)增加,而且往往是因?yàn)槟且恍械膮⑴c度普遍較高。

最后,因?yàn)椴⒉皇俏覀儨y(cè)試的所有想法都會(huì)成為贏家,贏得會(huì)員青睞(有時(shí)新功能會(huì)有bug!)我們還會(huì)檢查充當(dāng)“護(hù)欄”的指標(biāo)。我們的目標(biāo)是限制任何的負(fù)面后果,并確保新產(chǎn)品體驗(yàn)不會(huì)對(duì)會(huì)員體驗(yàn)產(chǎn)生意外影響。比方說(shuō),我們可能會(huì)將服務(wù)對(duì)照組和治療組的客戶服務(wù)聯(lián)系人進(jìn)行對(duì)比比,看看新功能是否沒(méi)有增加聯(lián)系率,因?yàn)榫毩?xí)率的增加可能表明會(huì)員感到困惑或不滿。

總結(jié)

這篇文章的重點(diǎn)是建立直覺(jué):A/B 測(cè)試的基礎(chǔ)知識(shí),為什么要跑 A/B 測(cè)試,而不是推出功能然后對(duì)比變更前后的指標(biāo),以及我們?nèi)绾螌⑾敕ㄗ兂煽蓹z驗(yàn)的假設(shè)。接下來(lái),我們將介紹用來(lái)對(duì)比治療組與控制組體驗(yàn)指標(biāo)的的基本統(tǒng)計(jì)概念。

譯者:boxi。