国产精品成人一区二区三区,7777色鬼xxxx欧美色妇,国产精品久久久久久人妻精品,欧美精品中文字幕亚洲专区,欧美精品xxxxbbbb

Netflix是如何做決策的?(三):誤報與統(tǒng)計顯著性

神譯局是36氪旗下編譯團隊,關注科技、商業(yè)、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:決策是行動的指南。不管是個人還是企業(yè),每天都要面臨著無數(shù)的決策。決策的好壞會對結果產生巨大影響,如何做好決策是每個人都要上的一門必修課。在Netflix這里,他們采用了一種以實驗為導向的決策流程,先小范圍地對不同方案進行測試,根據(jù)對比效果調整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術博客推出了關于Netflix如何用A/N測試做出決策的系列文章。本文來自編譯,是系列文章的第三篇。后續(xù)文章還將介紹實驗在 Netflix 中的作用、Netflix對基礎設施的投資是如何為實驗提供支撐和擴展的,以及 Netflix內部實驗文化的重要性。

劃重點:

任何決策方法都不能完全消除不確定性以及犯錯誤的可能性

在對測試結果采取行動時,可能會犯兩種類型的錯誤:誤報與漏報

誤報率跟觀察到的實驗組與對照組之間的度量值差異的“統(tǒng)計顯著性”密切相關

A/B 測試里面還有兩個概念跟 p 值密切相關:測試的否定域以及觀測的置信區(qū)間

Netflix 是如何做決策的?(一):介紹

Netflix是如何做決策的?(二):什么是 A/B 測試?

在《Netflix是如何做決策的?(二):什么是 A/B 測試?》中,我們討論了在 Netflix 上面測試 Top 10,以及如何利用這項測試的主要決策指標衡量會員對 Netflix 的滿意度的。如果像這樣的測試顯示出主要的決策指標在統(tǒng)計上有顯著改善的話,就說明這項功能非常適合面向所有會員推出。但是,得到測試的結果之后,我們如何才能知道自己做出的決定是否正確呢?重要的是要承認一點,任何決策方法都不能完全消除不確定性以及犯錯誤的可能性。利用基于假設生成、A/B 測試以及統(tǒng)計分析的框架,我們可以對不確定性進行細致的量化,并了解犯不同類型錯誤的概率。

在對測試結果采取行動時,我們可能會犯兩種類型的錯誤。當來自測試的數(shù)據(jù)表明控制組和實驗組體驗之間存在表明差別,但實際上沒有差別時,就會出現(xiàn)假陽性(也稱為 I 型錯誤)。這種情況就好比健康人的體檢結果呈陽性。在對測試做決定時可能還會犯另一個錯誤,那就是假陰性(也稱為 II 型錯誤),當數(shù)據(jù)沒有表明實驗和控制之間存在表面差異,但實際存在差異時,就會發(fā)生這種情況。這種情況就像你有病,但相關的醫(yī)學檢測結果呈陰性。

作為建立直覺的另一種辦法,不妨思考一下這個互聯(lián)網和機器學習之所以存在的真正原因(編者注:一個玩笑):標記圖像里面有沒有貓。對于特定圖像來說,決策有兩種可能(貼上 “有貓”或“沒貓”的標簽),同樣地事實也有兩種(圖像要么有貓,要么沒有)。這導致總共有四種可能的結果,如圖 1 所示。 A/B 測試也是如此:我們根據(jù)數(shù)據(jù)做出兩個決策之一(“有足夠的證據(jù)得出十大排名會影響會員的滿意度這個結論”)或“證據(jù)不足”),而事實也會有兩種可能,但我們永遠沒法完全確定(“十大排名確實影響到會員的滿意度”或“沒影響”)。

圖 1:把圖像標記為圖中有沒有貓時的四種可能結果。

關于誤報和漏報,一個令人不安的事實是,我們沒法排除掉。事實上,這兩者是此消彼長的關系。對實驗進行設計好讓誤報率很小必然會增加漏報率,反之亦然。在實踐上,我們的目標是對這兩種錯誤來源做好量化、理解和控制。

在本文的其余部分里,我們會利用簡單的示例來建立起對誤報和相關統(tǒng)計概念的直覺;在本系列的下一篇文章里,我們再談談漏報及相關統(tǒng)計概念。

誤報與統(tǒng)計顯著性

有了一個很好的假設,并且對主要決策指標有了清晰理解之后,是時候轉到設計 A/B 測試的統(tǒng)計方面了。這個過程一般從確定可接受的誤報率開始。按照慣例,這個誤報率通常設定為 5%:對于實驗組與對照組之間其實沒有實質差異的測試,我們有5%的幾率會錯誤地得出存在 “統(tǒng)計上顯著”差異的結論。誤報率為5%的測試就是顯著性水平為 5%的測試。

約定顯著性水平為5%可能會讓人感到不舒服。遵循這一慣例,意味著我們接受這樣的事實,即對于會員來說實驗組和控制組體驗沒有明顯不同的情況下,我們犯錯的幾率是5%。我們會把 5% 沒有貓的照片標記成有貓。

誤報率跟觀察到的實驗組與對照組之間的度量值差異的“統(tǒng)計顯著性”密切相關,我們就用 p 值來測量吧。p 值是觀測到至少與A/B測試實際觀測樣本相同極端的樣本的概率,前提是實驗組跟對照組的體驗確實沒有差異。理解統(tǒng)計顯著性跟 p 值(這玩意兒已經讓學統(tǒng)計學的困惑了一個多世紀)有一個直觀的辦法,那就是玩簡單的機會游戲,去計算所有的相關概率并進行可視化。

圖 2:不妨考慮玩一個簡單的機會游戲,比方說像這樣的拋硬幣游戲,這是建立起統(tǒng)計直覺的好方法。

假設我們想知道一枚硬幣是不是不均勻,也就是拋到正面的概率不是 0.5(或 50%)。這個情況看起來似乎很簡單,但其實跟很多企業(yè)直接相關,其目標是要了解新產品體驗會不會導致某些二元性的用戶活動(單擊某項UI 功能,再續(xù)租Netflix 服務一個月)出現(xiàn)的比率不同。所以任何我們可以通過簡單的拋硬幣游戲建立的直覺都可以直接映射到對A/B測試做出的解釋。

為了確定硬幣是不是不均勻,我們不妨做個實驗:拋 100 次硬幣并計算正面朝上的比例。由于存在隨機性或“噪音”,就算硬幣是完全均勻的,我們也不指望正好會有 50 次正面朝下, 50次反面朝上——但跟50 這個數(shù)偏差多少才算 “太多”呢?什么時候才有足夠的證據(jù)來拒絕硬幣其實是均勻的這個基線判定?如果拋 100 次有 60 次是正面的話,你是不是愿意得出硬幣不均勻的結論?70呢?我們需要有一種方法來調整決策框架并了解相關的誤報率。

為了建立直覺,不妨來一次思考練習。首先,我們假設硬幣是均勻的——這就是我們的“零假設”。零假設始終是對現(xiàn)狀或均等的陳述。然后,我們從數(shù)據(jù)里面尋找反對這個零假設的那些令人信服的證據(jù)。為了決定令人信服的證據(jù)應該由什么構成,在假設原假設為真的情況下,我們要計算每個可能結果的概率。對于拋硬幣這個例子而言,就是拋100 次硬幣拋出 0 個正面、1個正面、2個正面,以此類推直至 100 個正面的概率——前提假設是硬幣是均勻的。具體數(shù)學我們就略過了,只需要留意所有這些可能的結果及其相關概率都用圖 3 里面的黑條和藍條顯示(現(xiàn)在先忽略顏色)。

然后,我們可以將在硬幣均勻的假設下計算得出的結果概率分布跟我們收集到的數(shù)據(jù)進行比較。假設我們觀察到拋100 次里面其中的55% 得到的是正面(圖 3 中的紅色實線)。為了對這個觀察是否硬幣不均勻的有力證據(jù)進行量化,我們把每一個可能性低于觀察的每一個結果的相關概率進行合計。此處,由于我們沒有對更有可能出現(xiàn)正面或反面做出任何假設,所以我們把出現(xiàn)正面概率達到或超過55%的累加起來(紅色實線右側的條),把出現(xiàn)反面概率達到或超過55%的也累加到一起(紅色虛線左側的條)。

神秘的 p 值就出現(xiàn)了:在零假設為真的情況下,觀測到至少與實際觀測樣本相同極端的樣本的概率。在我們的例子中,零假設是硬幣是均勻的,觀測到的結果是拋100 次硬幣當中有 55% 是正面,而 p 值大概是 0.32。解釋如下:拋硬幣 100 次并計算正面朝上占比的實驗,用均勻的硬幣(零假設為真)來拋,如果我們重復多次的話,在這些實驗當中,其中有32% 的結果將至少有 55% 是正面朝上或至少 55% 是反面朝上(結果至少跟我們的實際觀測結果一樣不可能)。

圖 3:將一枚均勻的硬幣拋 100 次,每一個結果的概率表示為正面朝上的占比。

那我們怎么用 p 值來確定是否存在統(tǒng)計上顯著的證據(jù)表明硬幣是不均勻的——或者表明我們的新產品體驗對現(xiàn)狀有改進呢?回到我們在開始時同意接受的 5% 的誤報率:我們得出結論,如果 p 值小于 0.05,則存在統(tǒng)計上的顯著影響。這形成了這樣一種直覺,也就是如果我們的結果在硬幣是均勻的假設下不太可能發(fā)生的話,我們應該拒絕硬幣是均勻的零假設。在拋 100 次硬幣觀測到有 55 次正面朝上的例子里,我們計算出的 p 值為 0.32。由于 p 值大于 0.05 顯著性水平,因此我們得出結論,沒有統(tǒng)計上顯著的證據(jù)表明硬幣不均勻。

我們可以從實驗或 A/B 測試中得出兩個結論:要么得出有影響的結論(“硬幣不均勻”、“十大排名功能提高了會員的滿意度”),要么得出證據(jù)不足以得出有影響的結論(“不能得出硬幣不均勻的結論”,“不能得出十大排名提高了會員滿意度的結論”)。這跟陪審團審判很像,陪審團最后只能得出兩個可能的結果,要么“有罪”,要么“無罪”(not guilty)——而“無罪”跟“清白”(innocent)是是非常不同的。同樣地,這種A/B 測試的(頻率主義)方法不允許我們得出沒有影響的結論——我們從來都不會得出硬幣是均勻的,或者新產品功能對我們的會員沒有影響的結論。我們只是得出這樣的結論,我們沒有收集到足夠的證據(jù)來駁回不存在差異的零假設。在上面拋硬幣的例子里,我們拋了 100 次硬幣然后觀測到有 55% 是正面朝上,并得出結論,我們沒有足夠的證據(jù)可以將硬幣標記為不均勻。至關重要的是,我們也沒有得出硬幣是均勻的結論——畢竟,如果我們收集到更多的證據(jù),比如將同一枚硬幣拋 1000 次的話,我們可能就能找到足夠令人信服的證據(jù)來駁回硬幣是均勻的零假設。

否定域與置信區(qū)間

A/B 測試里面還有兩個概念跟 p 值密切相關:測試的否定域以及觀測的置信區(qū)間。我們會在本節(jié)介紹這兩個概念,還是用上面的拋硬幣例子作為基礎。

否定域。給測試建立決策規(guī)則的另一種方法是根據(jù)所謂的“拒絕域”——我們得出結論認為硬幣是不均勻的一組值。為了計算拒絕域,我們再次假設原假設為真(硬幣是均勻的),然后將拒絕域定義為概率總和不超過 0.05 的最不可能結果的集合。拒絕域由最極端的結果組成,前提是原假設是正確的——是拒絕原假設的證據(jù)最強的結果。如果觀測值落在拒絕域內,我們就可以得出結論,存在統(tǒng)計上顯著的證據(jù)表明硬幣是不均勻的,并“拒絕”零假設。在那個拋硬幣實驗的情況下,拒絕域對應于觀測到正面朝上的情況少于 40% 或超過 60%(如圖 3 的藍色陰影條所示)。我們稱拒絕域的邊界,本例情況下為正面朝向占比為 40% 與 60% ,為測試的臨界值。

拒絕域與 p 值之間存在等價關系,兩者都可得出相同的決定:當且僅當觀測值位于拒絕域內時,p 值小于 0.05。

置信區(qū)間。到目前為止,我們已經通過首先從零假設開始來設立決策規(guī)則。零假設始終都是沒有變化或等價的陳述(“硬幣是均勻的”或“產品創(chuàng)新對會員滿意度沒有影響”)。然后,我們在該零假設下定義可能的結果,并將我們的觀測結果跟這一分布進行比較。要想理解置信區(qū)間,把問題倒過來,去關注觀測結果會有所幫助。我們不妨做個思考練習:給定觀測結果,假設誤報率指定為 5% 的情況,零假設的哪些值會導致得出不拒絕的決定?對于那個的拋硬幣的例子,觀測結果是在拋100 次硬幣當中有 55% 是正面朝上,我們不拒絕硬幣為均勻的無效。我們也不會拒絕正面朝上概率為 47.5%、50% 或 60% 的零假設。正面朝上概率從大約 45% 到 65% 的范圍內,我們都不會拒絕零假設(圖 4)。

這個值范圍就是一個置信區(qū)間:在給定測試數(shù)據(jù)的情況下,在零假設下不會導致拒絕的值的范圍。因為我們已經用顯著性水平為5%的測試劃定了區(qū)間,所以就設定了 95% 的置信區(qū)間。我們的解釋是,在重復實驗的情況下,置信區(qū)間在 95% 的時間內可覆蓋真實值(此處為正面朝上的實際概率)。

置信區(qū)間與 p 值之間存在等價關系,兩者都可得出相同的決定:當且僅當 p 值小于 0.05 時,95% 置信區(qū)間未覆蓋空值,并且在這兩種情況下我們都拒絕無影響的零假設。

圖 4:通過映射一組值來建立置信區(qū)間,這些值在用來定義零假設時不會導致拒絕給定觀測結果。

總結

通過以拋硬幣為例的一系列思考練習,我們已經建立起關于誤報、統(tǒng)計顯著性、 p 值、拒絕域、置信區(qū)間以及我們可根據(jù)測試數(shù)據(jù)做出的兩個決定的直覺。這些核心概念和直覺可直接映射到比較 A/B 測試的實驗與控制體驗上面。我們定義了一個二者沒有差異的“零假設”:也就是“B”體驗沒有改變會員滿意度。然后我們進行同樣的思考實驗:假設會員滿意度沒有差異的話,實驗組和對照組之間的指標差異可能有哪些結果,相關概率是多少?然后,就像拋硬幣例子一樣,我們可以把實驗的觀測結果跟這個分布進行比較,計算出 p 值并得出測試的結論。就像拋硬幣的例子一樣,我們可以定義拒絕域并計算出置信區(qū)間。

但是誤報只是我們在對測試結果采取行動時可能會犯的兩個錯誤當中的一個。在本系列的下一篇文章里,我們還會介紹另一種類型的錯誤:漏報以及與統(tǒng)計功效密切相關的概念。

譯者:boxi。