現代統計的思想飛躍,因果推斷!
探求事物的原因,是人類永恆的精神活動之一。從古希臘的哲學到中國先秦的詩歌,都充滿了對原因的追問和對因果關係的思考。比如,亞裡士多德就在《物理學》(Physics)和《形而上學》(Metaphysics)兩書中反覆強調,我們只有知道了事物的原因,才能算真正理解這個事物。又如,屈原在《天問》開篇,就追問日月星辰執行的原因。
長期以來,人們一方面好奇地追問原因和結果的關係,一方面又苦於這些概念的模糊性。於是,這些話題在很長一段時間都僅僅侷限在哲學和文學的範圍內。精確地描述因果關係,尤其是用數學的語言來描述因果關係,則是非常近代的事情了。這一項思想飛躍,得益於現代統計學的發展。統計學家稱之為“因果推斷”(causal inference)。雖然因果推斷在現代統計學的萌芽階段就已經產生,但是它的發展並非一帆風順:它長期被主流忽視、懷疑甚至攻擊。直至最近四十年,尤其是最近十年,它才得到了廣泛的認可和大力的研究,成為當今主流的研究方向之一。在最近的一篇文章中,Andrew Gelman 和 Aki Vehtari 評選了過去五十年中,統計學最重要的八個想法,排名第一的就是因果推斷[1]。當今世界,很多年輕的學者加入了因果推斷的研究,他們來自統計學、經濟學、社會學、政治科學、教育學、流行病學、電腦科學、哲學等等領域。毫不誇張地說,統計因果推斷的研究迎來了它發展的黃金時代。
本文將回顧統計因果推斷的歷史背景,評述中國因果推斷研究的現狀,並且大膽推測它未來的發展前景。
2. 哲學基礎:因果推斷何以成為可能?
人們常常問關於原因和結果的問題。比如,某人死於肺癌,是不是因為他常常吸菸導致的?比如,我感冒症狀減輕了,是不是因為服用了維生素 C 片導致的?比如,大學教育是否能夠提高收入水平?類似的問題,充滿了我們的日常生活。
但是,這些看似直接了當的問題,卻不容易回答。比如,有人吸菸,卻沒有得肺癌;有人不吸菸,卻得了肺癌。比如,我可能僅僅喝白開水,感冒也會自己消失。比如,有人沒有上大學,卻做生意發了大財。當然,有點機率論常識的人很容易意識到,這些事件都帶有隨機性。從經驗中,我們可能觀察到吸菸的人更可能得肺癌;服用維生素 C 的人,平均來說,自我感覺感冒恢復得更快;上過大學的人平均收入更高。但是,這些統計上的“相關關係”是否就是“因果關係”呢?
大部分西方哲學家都認為因果關係是一條本質的、似乎毋庸置疑的定律。但是,蘇格蘭哲學家大衛•休謨(David Hume, 1711–1776)曾經丟擲了一條驚人的論點。簡言之,他認為人類僅僅憑經驗,只能認識事物之間恆定的前後相繼關係(constant conjunction),並不能認識任何因果關係。很多哲學家都努力迴應休謨的質疑,因為若是承認休謨是對的,那麼知識何以成為可能?若人類的知識僅僅是經驗性的前後相繼關係,那麼人類似乎沒有擁有任何“心智的榮耀”[2]。
哲學家們對休謨的迴應似乎都是徒勞的。我在學生時代曾經上過鄧曉芒教授“康德哲學”的課, 他就直言,休謨是駁不倒的。的確,休謨這樣的徹底的懷疑論者,是無法駁倒的。我回顧休謨的高論,並非想賣弄哲學史,因為休謨是繞不開的:無論何時何地,只要談及因果推斷,就可能有人引用休謨的論點質疑你問題的合理性。也正是因為休謨這種近乎詛咒似的言論,使得因果推斷的數學化步履維艱。
然而,上個世紀統計學的幾項輝煌成果改寫了思想史。如今人們已經不再羞於討論因果關係,統計因果推斷的語言,深入到了幾乎所有的應用領域。這些成果也許並沒有完全解決休謨的問題,但是它們給出了因果關係新的思考方式和推理框架。下面,我將分三部分回顧歷史。
3. 統計學中“哥白尼式的革命”:內曼的“潛在結果”模型
1923 年,耶日•內曼(Jerzy Neyman, 1894–1981) 還是波蘭華沙大學的博士生,他的畢業論文是“機率論在農業實驗中的應用”[3]。在這篇論文中,他提出了用於因果推斷的“潛在結果”(potential outcomes)的數學模型,並將它和統計推斷結合起來。他的想法非常自然,數學結構也很簡單。下面簡單地回顧一下。
以農業實驗為例,考慮n塊田作為實驗的物件,實驗者想檢測兩種肥料對於產量的影響。用i表示第i塊田, Yi(1)和 Yi(0)表示如果用肥料1和肥料0分別對應的第 i塊田的產量,那麼 Ti= Yi(1)-Yi(0)就是肥料 1相對於肥料0 對第 i塊田產量的因果作用。實驗者隨機地分配肥料 1或者肥料 0到第 i塊田,所以最終我們要麼觀測到 Yi(1),要麼觀測到 Yi(0),不可能同時觀測兩者。顯而易見,在這個模型下,因果推斷的本質困難就是無法同時觀測Yi(1) 和 Yi(0),也就無法直接觀測到 Ti。觀測單個的 Ti太困難,退而求其次,我們可以考慮研究它的平均數:
這個 T通常被稱為平均因果作用(average causal effect)。這可能是因果作用最簡單的定義了。到此為止,內曼引入了一些數學記號來定義“因果作用”。也許讀者會覺得這平平無奇,無非就是Yi(1) 和Yi(0) 。但是,這些記號將開啟一扇窗,迎接新思想的曙光。
潛在結果 Yi(1)和 Yi(0),以及平均因果作用T ,在某種意義上,都是假想的數字。僅有這些定義,還不能說明這個模型的現實意義。問題的關鍵是:我們能否根據觀測到的資料推斷 T?內曼給出了肯定的回答。在隨機化實驗下,第 i塊田接受肥料 1或者肥料0 是完全隨機的。用 Zi=1表示第i 塊田接受肥料1 ,用 Zi=0 表示第 i塊田接受肥料0 。隨機化實驗固定接受肥料 1和肥料0的田的總數,分別是n1和n0 ,對應的(Z1,……,Zn) 這個向量是 n1個1 和n0 個0 的隨機置換(random permutation)。如果第 i塊田接受了肥料Zi ,那麼我們觀測到的產量就是
這個恆等式似乎顯而易見:從數學上講,它無非說明,當 Zi=1時,Yi=Yi(1);當Zi=0 時,Yi=Yi(0) 。但是,我在和朱迪亞•珀爾(Judea Pearl)交流時,他認為這是因果推斷最重要的恆等式,因為它聯絡了左邊我們能夠觀測到的結果和右邊的潛在結果。
最終能夠被觀測的資料是
一個顯而易見的估計量是
它是接受肥料 1和肥料 0下,平均結果的差值。內曼證明了τ ̂是平均因果作用 的無偏估計(即 τ ̂的期望是τ ),計算了這個估計量的方差,討論瞭如何估計這個方差,還提出了一個基於τ ̂ 的中心極限定理的置信區間(即這個區間以指定的機率蓋住真值 )。最後一步的中心極限定理在內曼的原文僅僅是一個直覺的證明,一直到了 Paul Erdos, Alfred Renyi 和 Jaroslav Hajek 工作的出現,這類中心極限定理的證明才被嚴格化[4]。
上面僅僅討論了一個最簡單的數學結構:兩個組的隨機化實驗中的因果推斷。現實中的隨機化實驗豐富多彩,如何在各種隨機化實驗中做因果推斷取決於具體的實驗設計方案。內曼本人於 1935 年在英國皇家統計學會宣讀的論文,討論了隨機區組設計(randomized block design)和拉丁方設計(Latin squares design)的因果推斷,引發了包括羅納德•費希爾(Ronald Fisher) 在內的統計學家的激烈爭論。同時期,費希爾對隨機化實驗進行了深入的研究,雖然他沒有使用內曼潛在結果的記號,但是因果推斷始終是他思考的物件。隨後的幾十年,隨機對照實驗(randomized controlled trial ;RCT)成為美國食品藥品監督管理局批准新藥的黃金標準。最近二十年,大量的隨機化實驗出現在社會科學中,用來研究複雜社會問題中的因果關係。比如,麻省理工學院和哈佛大學的三位經濟學家,Abhijit Banerjee, Esther Duflo 和 Michael Kremer,因為用實驗的方法研究發展經濟學,獲得了 2019 年的諾貝爾經濟學獎。
內曼生前對自己在統計假設檢驗方面的奠基性工作頗為自豪,認為那是統計學中“哥白尼式的革命”(Copernican Revolution)[5]。他並未預料他在因果推斷的奠基性工作,也將產生深遠的影響。這個影響則是由唐納德•魯賓(Donald Rubin)開啟的。
4. 統計學的拓荒者:魯賓關於觀察性研究中的因果推斷的研究
從直覺上,也許大家不會對隨機化實驗中的因果推斷感到驚奇。畢竟隨機化實驗保證了兩個組在平均意義下是相似的,那麼他們之間的區別就可以歸因於不同肥料對產量的因果作用。但是,現實的統計問題,很多資料收集並非源自隨機化實驗 — — 這類研究通常被稱為觀察性研究(observational study)。比如,如果要研究吸菸和肺癌的因果關係,基本的倫理不允許我們隨機地讓一部分人抽菸、讓一部分人不抽菸。再如,研究大學教育對收入的影響,我們不能隨機地讓一部分人上大學、讓一部分人不上大學。很多流行病學和社會科學的問題,本質上一定是觀察性研究,人們也迫切地想從這些觀察性研究中獲得關於因果關係的知識。
雖然潛在結果模型成功地數學化了隨機化實驗中的因果推斷,但是它長期並未用於觀察性研究 — — 內曼本人是持懷疑態度的,因為缺乏隨機化,觀察性研究有太多複雜性,比如抽菸的人和不抽菸的人,可能就是兩群完全不同的人,不具有可比性。雖然他從未嘗試用他的潛在結果模型分析觀察性資料,但是他間接地啟發了一些更加有冒險精神的學者。其中一人就是魯賓[6]。
魯賓認為,觀察性研究也對應著一個假想的隨機化實驗,因此內曼的潛在結果模型可以用來定義一般的因果作用。這裡我們考慮一般的問題,不再侷限於農田、肥料和產量。用 i表示個體 i,它的觀測結果 Yi有兩個潛在結果Yi(1) 和 Yi(0),分別對應兩個處理水平,一般來說1 被稱為“處理”(treatment),而 0 被稱為“對照”(control)。每個個體 i有一個二值的處理水平Zi 和一些處理前的協變數 Xi。一個具體的例子是:
Zi: 個體 i吸菸與否的指示變數;
Yi: 個體 i是否得肺癌的指示變數;
Xi: 個體 i的年齡、性別、教育、收入、家庭病史等等,統計學中稱它們為協變數(covariates)。
假設{(Zi,Xi,Yi(1),Yi(0)):i=1,……,n}是獨立同分布的隨機取樣而來,我們關心的引數是如下的總體平均因果作用:
魯賓給了一個關於τ 的因果推斷的充分條件:給定協變數Xi,潛在結果(Yi(1),Yi(0)) 和 處理變數Zi 條件獨立。
魯賓稱這個條件為“可忽略性”(ignorability)。這個條件還有很多其他名字:流行病學家常常稱之為“無混雜性”(unconfoundedness);經濟學家常常稱之為“可觀測的選擇機制”(selection on observables)。在可忽略性下,我們可以透過簡單的數學推導得到下面的結果:
為了簡單起見,上面的公式假設 X 是離散的隨機變數;一般化的公式可以同理得到。上面的推導僅僅用到了最基本的機率法則:第一步是全機率公式;第二步由可忽略性要求的條件獨立性得到;第三步根據 Zi將Yi替換成 Yi(1)或者Yi(0) 。這個公式的意義在於,最左邊的平均因果作用 τ的定義依賴於不可以完全被觀測的潛在結果,最右邊的量僅僅依賴於可以觀測的變數 (Zi,Xi.Yi)的聯合分佈。用一個技術性的術語來描述上面的公式,就是,基於觀測資料,平均因果作用是可識別的(identifiable)。直觀上,我們可以用觀測資料構造平均因果作用的估計量。比如,我們可以擬合Yi 關於 (Zi,Xi)的統計模型,則可以進一步根據上面的公式估計τ.
我們還可以證明如下的公式:
其中e(Xi) =P(Zi=1|Xi)是處理的指示變數給定協變數的條件機率。這個公式也有比較直觀的解釋:處理組和對照組的個體並非完全隨機選擇的,我們需要根據他們入組的機率進行調整。Paul Rosenbaum 和魯賓在他們1983 年的 Biometrika 文章中指出, e(Xi)在觀察性研究的因果推斷中, 發揮著至關重要的作用,他們把這個條件機率稱為“傾向得分”(propensity score)。這個公式有類似的、不平凡的意義:右邊的量僅僅依賴於可以觀測的變數(Zi,Xi.Yi) 的聯合分佈。一旦擬合了Zi 關於Xi 的統計模型,我們可以得到 e(Xi) 的估計,則可以進一步估計τ。這個估計方法涉及到了用條件機率的逆進行加權,所以在文獻中它也被稱為“逆概加權”(inverse probability weighting ;IPW)。
Rosenbaum 和魯賓的這篇文章是 Biometrika 這個雜誌創刊以來引用率最高的兩篇文章之一[7]。在它發表後的三十多年裡,引起了很多理論統計學家和應用統計學家的興趣,他們提出了很多推廣的、更加精緻的理論和方法,這些理論和方法被用在流行病學、經濟學、政治科學等諸多學科的研究中。
雖然內曼的因果推斷的文章為老一輩的統計學家所熟知, 但是在很長一段時間它幾乎銷聲匿跡了。它不僅僅不在觀察性研究中被使用,也不在隨機化實驗中被使用。從上個世紀七十年代開始,魯賓寫了一系列文章告訴大家,潛在結果是思考統計因果推斷的有力武器,但是他的文章起初並不被統計雜誌所接受。多年以後,他這些在當時看來離經叛道的文章使他成為名副其實的統計學的拓荒者。
魯賓還有很多其他關於因果推斷的研究,這裡就不再深入敘述;更多精彩的細節,可以在他的專著中找到[8]為了引入下一部分的內容,我需要對魯賓的工作進行恰當的批判。上面介紹的理論有兩個致命的問題。第一個問題是,處理Zi 和結果Yi 之間的先後順序是固定的,一前一後。但是, 很多實際問題可能存在 Zi和Yi同時產生,或者兩者之間有動態關係的情況。魯賓的這個簡單模型,無法討論這個問題。在計量經濟學中,這被稱為“聯立方程模型”(simultaneous equation model)。第二個問題是,可忽略性假定的合理性如何判定?這個條件獨立性不可能被觀測資料驗證,那麼我們如何能相信由它匯出的數學結果呢?費希爾曾經質疑吸菸導致肺癌的研究,他認為,可能存在一個基因,它既導致人更容易吸菸,也導致人更容易得肺癌,所以我們看到的吸菸和肺癌之前的相關性可能是虛假的因果作用。如果我們遺漏掉了關於這個基因的資訊,那麼魯賓要求的可忽略性就不成立。
第一個問題不太容易有簡單的解答。珀爾試圖回答第二個問題。簡言之,回答第二個問題,需要更多的關於資料生成機制的知識,而圖模型是描述資料生成機制的一種有力工具。他提出了新的因果推斷的正規化,在某些條件下重新推匯出了魯賓的結果,並且得到了新的結果。
5. 人工智慧的“因果革命”:珀爾對圖模型的因果解釋
珀爾工作的雛形是圖模型。直觀上,這種模型用圖來刻畫條件分佈,尤其是變數之間的條件獨立性[9]很多統計學家非常習慣用一個有向無環圖 (directed acyclic graph ;DAG) 來表示資料的生成機制。珀爾創造性地賦予了它因果關係的解釋,並給了一系列運演算法則。
為了描述珀爾的因果圖理論,我們需要一些圖的基本語言。一組隨機變數 X=(X1,……,Xp)形成一個 DAG ,每個節點對應著一個隨機變數。我們用 paj表示和節點Xj 緊鄰且處於箭頭上游的變數集合(parent node),這個集合可能為空集。DAG 中變數的聯合分佈可以分解成
考慮上圖中的 DAG。上面的聯合分佈的公式具體化成:
用上面的圖,如何思考因果關係的問題呢?珀爾引入了 do 運算元,表示干預某個隨機變數到某個值,這類似我們在實驗中控制某個變數。我先給一般的公式,再給具體的例子。一般地,
上面等式的左邊定義的聯合分佈對應著一個新的DAG :在原來的 DAG 上強制Xj 取xj',並且刪除所有指向Xj 的邊(由於我們強制 Xj取xj' ,那麼paj指向Xj的邊不再起作用)。等式的右邊展示了這個新 DAG 的聯合分佈和原始 DAG 聯合分佈的關係。從左邊的聯合分佈,我們可以推出邊緣分佈,比如
他們兩者的差,度量了干預 X5在兩個不同的值, X7分佈的變化。我們可以用這兩個邊緣分佈計算出對應的期望
他們之間的差,就是X5 對 X7的平均因果作用。這就是在因果圖下,用 do 運算元定義的X5對X7的平均因果作用。一個至關重要的點是
即 do 運算元和通常的條件機率在一般情況下是不同的。這也說明了,僅僅用傳統機率論的語言,不足以定義因果作用。內曼和魯賓用潛在結果,珀爾則用 do 運算元。
來看一個具體的例子。從上面的 DAG 我們可以得到
從這個聯合分佈積分,我們可以得到邊緣分佈 P(X7=x7|do(X5=1))。類似可得P(X7=x7|do(X5=0)) 。進一步可以計算X5對X7的平均因果作用。但是這個例子的趣味性還不夠,因為上面的計算公式要求我們觀測到所有變數的聯合分佈。
珀爾給出了一些更加有趣的結果:某些情況下,我們並不需要觀測到所有的變數,也可以識別因果作用。下面用上面的 DAG 作為例子,解釋他提出的“後門準則”(backdoor criterion)和“前門準則”(frontdoor criterion)。更一般的數學結果需要更多的術語和技術細節;感興趣的讀者可以參見珀爾的文章和專著[10]。
5.1 後門準則
根據珀爾的理論,要研究X5對X7的因果作用,我們無需觀測所有的變數,僅僅觀測(X4,X5,X7)即可。直觀上,X4阻斷了從X5到X7的所有“後門路徑”:
指向X5的、看似後門路徑但是有“→•←”這種結構的路徑 ,並不算成真正的後門路徑。珀爾證明,僅僅用 的聯合分佈,我們就可以表示
類似有P(X7=x7|do(X5=0))的公式,從而有如下的平均因果作用的公式:
若將X4 ,X5 ,X7 換成X , Z, Y,那麼上面這個公式和在潛在結果下假定可忽略性推匯出來的平均因果作用的公式一模一樣。
魯賓和珀爾的理論至此殊途同歸。為了研究兩個變數之前的因果關係,我們需要觀測他們的“共同原因”(common cause),即,那些既影響原因又影響結果的變數。否則,魯賓認為可忽略性不成立,而珀爾認為後門準則的條件不成立。
5.2 前門準則
珀爾的後門準則並沒有給統計學家帶來很大的驚喜,因為他給的公式在形式上並不是新的。但是,他的前門準則卻讓很多人吃驚。根據前門準則,我們僅僅需要觀測(X5,X6,X7)的聯合分佈,就可以識別X5到X7的因果作用。直觀上,X6阻斷了所有從X5到X7的“前門路徑”;另外,X5到X6沒有後門路徑,X6 到X7的後門路徑都被X5阻斷了。在這些約束下,珀爾證明了下面的前門準則公式:
這個公式乍看有些奇妙,甚至難以置信。或許下面的直觀解釋對理解這個公式何以成為可能有所幫助:
(a) X5到X7的因果作用是可以識別的,因為他們之間沒有後門路徑;
(b) X6到X7的因果作用是可以識別的,因為他們的後門路徑被X5阻斷了;
(c) X5到X7的因果作用僅僅透過X6產生,因此,X5到X7的因果作用可以理解成X5到X6的因果作用和X6到X7的因果作用的“乘積” 。
珀爾在他1995 年的 Biometrika 文章中給出了上面的和其他更一般的結果。他的文章引發了眾多統計學家的討論,當時大部分統計學家都保持懷疑甚至否定的態度,因為他的理論要求一個完全已知的圖,這對大部分應用統計問題來說,是不切實際的。但是,珀爾的因果圖,作為理論工具,對大家思考因果關係有很大的幫助。即使它不能直接用於資料分析,不少統計學家也認為他的理論有助於指導資料分析。珀爾由於這項工作於 2011 年獲得了計算機科學的最高獎 — — 圖靈獎。
6. 中國因果推斷的研究
從古希臘開始,西方的哲學家似乎就鍾情於因果關係的討論。這種傳統一直流傳至今。愛因斯坦曾說,西方科學的發展以兩個偉大的成就為基礎:一是希臘哲學家發明的形式邏輯體系,二是透過系統的實驗尋找因果關係。前者集中體現在歐幾里得幾何學中,後者肇始於文藝復興時期,以伽利略為代表。
中國的文學作品,如屈原的《天問》和辛棄疾模仿而作的詞《木蘭花慢•可憐今夕月》,有一些對自然現象很感性的追問。佛教也有因果迴圈的理論。但是這些都沒有和科學發生緊密聯絡。到了近代,中國學者受到了西方哲學的影響,也開始關注這個問題。比如,嚴復先生於1902 年翻譯了約翰•穆勒(John Stuart Mill)的名著《穆勒名學》[11],其中卷下第五章是“論因果”、第七章是“論觀察試驗”[12]。有如,洪謙先生師承奧地利邏輯實證主義學派(logical positivism)的莫里茲•石裡克(Moritz Schlick),於1934 年在維也納大學完成博士論文,題為“現代物理學中的因果律問題”。再如,金嶽霖先生也對休謨和穆勒的哲學有獨到的見解。到了現代,越來越多的中國哲學家也參與了有關因果關係的話題的討論。
歐美的統計因果推斷研究有很早的萌芽,比如內曼在1923 年的論文,又如 Jerome Cornfield 等人於 1959 年關於吸菸和肺癌因果關係的研究,再如 William Cochran 對觀察性研究的探索。但是,很多其他的統計學家則對因果推斷充滿了懷疑甚至敵意;僅有的這些早期研究也很零散、不成體系。魯賓在 Cochran 的影響下,系統地研究因果推斷,用數學的語言來描述一些應用統計學家已知的直覺和很多大家未知的奧妙。他在對因果推斷充滿敵意的氛圍中,艱難地發表了一系列文章,堅持進行這方面的研究,培養了幾代因果推斷的學者。哈佛大學一直是因果推斷研究的中心,這種狀態持續到魯賓退休、受聘到清華大學丘成桐數學中心。現在,美國各大統計系都有因果推斷的研究者。在中國,北京大學數學科學學院的耿直教授,是國內統計因果推斷研究的先驅,早在上世紀九十年代因果推斷還是冷門話題的時候,就開始相關研究,堅持了三十多年,親歷了因果推斷從冷門發展成熱點的過程。在美國,魯賓和珀爾學派相互批評對方的研究正規化;但是在中國,耿直的研究整合了魯賓和珀爾的研究正規化,兩者並行而不悖,在此基礎上,產生了風格獨特、思想深刻的研究成果。他曾應邀在國際工業與應用數學大會( International Congress on Industrial and Applied Mathematics, 2011)作一小時大會報告。另外,耿直還培養了很多年輕的、從事因果推斷研究的學者,他們在國內外統計系擔任教職,並且活躍於國內和北美的統計界,成為若干主流雜誌非常重要的貢獻者和這個領域的引領者。下面我簡單評述一下耿直教授的一部分研究成果。
6.1 混雜因素
統計學裡有個很有名的 Yule-Simpson 悖論:由於忽略某個變數,使得兩個變數間的相關關係出現逆反現象。例如,某藥對男性有效,對女性也有效,但是合併男和女後,發現該藥對總體無效。這個悖論與前面休謨的質疑有些聯絡,即,從經驗歸納不出因果關係。在這個悖論中被忽略的那個變數,被稱為混雜因素(confounder)。它是因果推斷的關鍵。前面魯賓的可忽略性也被稱為無混雜性,即排除了未觀測的混雜因素,他的理論才成立。
因果推斷需要關於混雜因素的假定,而判斷某個變數是否是混雜因素,又需要關於因果關係的假定,這似乎有點迴圈論證。因此,確定什麼是混雜因素是非常困難的。耿直探討混雜因素的定義,提出了各種判斷混雜因素的條件。其中一個結果是:如果不需要關於因果關係的假定,可以判斷一個變數不是混雜因素,但不能確定一個變數是混雜因素。珀爾在《為什麼》(The Book of Why)中寫到,混雜因素問題的完整解決方案是因果革命的主要亮點之一。他聲稱利用因果圖可以完美解決判斷混雜因素的問題。但是,因果圖常常是未知的,應該是因果推斷的目標,而不是前提條件。耿直的研究,在一定程度上彌補了珀爾研究的缺陷。這一系列文章發表在統計學頂級期刊 Journal of the Royal Statistical Society, Series B 上[13]。
6.2 替代指標悖論和準則、統計和因果關係的傳遞性
在科學研究中,由於終點指標很難觀測,所以常常選擇替代指標。例如,在艾滋病的臨床試驗中,關心的終點指標是患者的生存壽命,但是需要等待很長時間才能被觀測到,因此,有一些研究採用免疫力細胞 CD4 數目作為替代指標,藥物能提高 CD4 數目就被認為是有效的。在深入研究了 Yule-Simpson 悖論的基礎上, 耿直教授發現了新的悖論,並稱其為“替代指標悖論”:雖然新藥對替代指標有正的因果作用, 替代指標對終點指標也有正的因果作用,但是新藥對終點指標可能有負的因果作用。
這項成果不僅有理論價值,而且對醫學研究也有指導意義。有一本書《致命的藥物》(Deadly Medicine)報告了一個真實的案例。醫生的常識是,心律失常是猝死的危險因素,因此他們將糾正心律失常作為替代指標。一種新研製的藥物能有效糾正心律失常,於是獲得了美國食品藥品監督管理局的批准。令人驚訝的是,該藥物增加了數萬人猝死,超過越南戰爭中美國士兵的死亡人數。這就是替代指標悖論的現實後果。幾位傑出的統計學家,Ross Prentice, 唐納德• 魯賓,Steffen Lauritzen[14],分別都提出了關於替代指標的準則,不過他們的準則都無法避免替代指標悖論。耿直的文章,澄清了這些準則的缺陷,並且提出了新的準則,可以避免悖論出現。這一系列文章發表在統計學頂級期刊 Journal of the Royal Statistical Society, Series B 上[15],Tyler VanderWeele 在他的綜述文章中[16],回顧並高度評價了耿直教授的這一系列工作。
耿直在這方面的精深研究,不僅在統計和醫學上有意義,還對科學哲學有所增進。上面介紹的替代指標悖論,在數學上是不可思議的:如果Y=f(X),Z=g(Y)且f,g都是單調增函式, 那麼Z一定是關於X的單調增函式。在統計和因果推斷中,由於隨機性和隱變數的存在,這種傳遞性(transitivity)一般情況是不成立的。但是,科學研究和人類認知常常依賴這種傳遞性。它的理論根基是不完整的。耿直做出了奠基性的工作。著名數學家陶哲軒,也對類似的問題表現出了興趣,他曾在部落格中討論“相關性何時可傳遞?”(When is correlation transitive?)[17],回顧了一些基本的不等式,有助於研究傳遞性。但是,這方面的數學結果還不算豐富。
6.3 因果圖的結構探索
如上面所述,珀爾關於因果作用可識別性的理論依賴一個完整已知的圖模型。一個更有挑戰性的問題是:如何從資料中學習未知的圖模型?耿直提出了分解和區域性學習的方法,化繁為簡, 有針對性地構建圖模型。在資料不能完全確定變數間因果圖結構的情況下,他提出了一種實驗設計的方法,干預最少的變數,將相關關係的圖轉變為因果關係的圖。這對科學研究中的實驗,有指導意義。這一系列文章發表在機器學習領域的頂級期刊 Journal of Machine Learning Research 上[18]。
7. 統計因果推斷的未來
雖然因果推斷已經有了一些基礎性工作,但是這些工作還不足以迴應現實世界向我們發出的挑戰。理論上,目前的研究正規化還不能完美地應對複雜的實際工作需要。一些學者考慮了因果推斷和微分方程的關係,但是這方面的研究還在草創階段。不管是魯賓還是珀爾的正規化,對於有反饋的因果系統, 都有致命的缺陷,這也是值得思考的問題。另外,現有的工作大多數都是在評估某個給定的原因對某個給定的結果的作用,而科學研究的本質是探索未知的原因。雖然因果圖的結構學習對探索原因有幫助,但是這方面的理論還不夠豐富。因果推斷對整個思想界都有更深刻的意義,它是一種獨特的思辨方式,很多層面上是傳統的數學和機率論所不具備的。更廣地來說,研究因果推斷,對於豐富我們的精神世界,大有裨益。
身處大資料時代,如何從海量資料中挖掘因果關係,也是一個非常有挑戰性但是引人入勝的話題。由於研究深度學習(deep learning)而獲得 2018 年圖靈獎的計算機科學家約書亞•本希奧(Yoshua Bengio)最近轉向因果推斷的研究。他認為,機器學習和因果推斷兩種思想過去雖然獨立發展,但是在未來會相互交織而產生新的成果[19]。
從應用的角度,因果推斷一直和很多學科發生深刻的聯絡。比如,經濟學家深入研究的工具變數(instrumental variable),是探求因果關係的有力工具。又如,心理學家發明的因子分析(factor analysis),是研究隱變數的有力工具,這對研究不完全觀測的圖模型,大有幫助。我個人的研究,很大程度受到應用工作者的啟發,他們研究的問題常常超越了現有的因果推斷理論,成了新的理論研究的源頭活水。
因果推斷的研究,對規範我國藥物批准和政策評估,也大有幫助。比如,前面提到的 Prentice 和魯賓,都常常為美國食品藥品監督管理局做諮詢,解決他們在評估藥效方面遇到的困難。我國的生物醫藥行業在未來有很大的騰飛空間,因果推斷的學者們將發揮他們的巨大作用。再如,美國頂級高校的公共政策學院或者政府學院,都有研究因果推斷的專家,他們研究公共政策對社會福利的影響,對於最佳化社會資源,起著重要作用。研究因果推斷的學者,以後也應該走出象牙塔,承擔社會責任。
致謝:郭建華(東北師範大學)、蔣智超(美國馬薩諸塞大學)、苗旺(北京大學)、張俊妮(北京大學)、潘昆峰(中國人民大學)、黎波(清華大學)、劉中華(香港大學)、鞠念橋(美國哈佛大學)和寧少陽(美國威廉姆斯學院)給作者提出了寶貴的建議。美國密歇根大學生物統計系的宋學坤教授仔細閱讀並修改了本文的初稿。
作者簡介
丁鵬,2004 年至 2011 年在北京大學數學科學學院獲得本科和碩士學位,2015 年獲哈佛大學統計學博士學位,2016 年起任教於加州大學伯克利分校統計系,2021 年晉升為副教授。其主要研究方向是因果推斷。
註釋
1.A. Gelman and A. Vehtari, What are the most important statistical ideas of the past 50 years? 見https://arxiv.org/abs/2012.00174。第一作者曾獲得年輕統計學家的最高獎 COPSS 獎章。
2.“[T]he sole end of science is the honor of the human mind.” — — Carl Jacobi(卡爾• 雅可比)
3.內曼的論文是用波蘭語寫成的。1990 年,D. M. Dabrowska 和 T. P. Speed 將論文翻譯成英文,題目是On the Applications of the Theory of Probability to Agricultural Experiments,發表於 Statistical Science。潛在結果的基本想法也許在歷史中早就產生了,但是將它數學化、且正式地用於統計學,內曼的文章是首次。內曼是現代統計學的奠基人之一,他對假設檢驗、置信區間、抽樣調查和實驗設計等領域的研究,成為現代統計學的標準正規化。我國機率論和數理統計學的先驅許寶騄教授是內曼在英國指導的學生之一。
4.這方面的文獻綜述是:Li, X. and Ding, P. (2017). General forms of finite population central limit theorems with applications to causal inference. Journal of the American Statistical Association,112, 1759–1769。
5.見內曼的傳記:C. Reid (1982), Neyman — From Life。注意,哥白尼和內曼都是波蘭人。
6.另外一位受內曼影響的是計量經濟學家 Trygve Haavelmo。他是在計量經濟學中討論因果推斷的先驅。他曾在1989 年諾貝爾經濟學獎的獲獎感言中談及內曼對他的影響: https://www.nobelprize.org/prizes/economic-sciences/1989/haavelmo/facts/。
7.文章是 Rosenbaum and Rubin (1983) The central role of the propensity score in observational studies for causal effects, Biometrika, 70, 41–55。在紀念 Biometrika 第一百期的時候,這篇文章的引用數在該雜誌排名第二;參看 Titterington (2013) Biometrika highlights from volume 28 onwards, Biometrika, 100, 17–73。截至寫作本文的時候,Google Scholar 顯示這篇文章已經被引用了28392 次,已經超越了之前引用最高的文章 Liang and Zeger (1986) Longitudinal data analysis using generalized linear models, Biometrika, 73, 13–22(Google Scholar 顯示引用了18345 次)。這種改變,反映了近十年來,因果推斷的研究在學術界的極端活躍性。另外,Biometrika 創刊於 1901 年,是最早的理論統計雜誌之一。
8.第一本是 Rubin (2006) Matched Sampling for Causal Effects。第二本是 Imbens and Rubin (2016) Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction。兩書均由劍橋大學出版社出版。
9.比如 A. P. Dempster 就用一個無向圖來表示聯合正態分佈中的條件獨立性:給定其他變數,如果兩個變數條件獨立, 那麼他們之間的邊不存在。他的文章是: Dempster, A.P. (1972) Covariance selection. Biometrics, 157–175。
10.珀爾的開創性文章是:Pearl (1995) Causal diagrams for empirical research. Biometrika, 82, 669–688.他的專著是:Pearl (2009) Causality: Models, Reasoning and Inference, 劍橋大學出版社。
11.此書英文原名是 A System of Logic,直接翻譯過來是《一個邏輯體系》,嚴復先生認為“邏輯學”就是中國的“名學”, 這一學派興起於先秦,代表人物有公孫龍等。這本書在英語世界產生過很深遠的影響,其中五條“穆勒方法”總結了歸納推理中,獲得因果知識的一些準則。嚴復先生是北京大學從“京師大學堂”更名後的第一任校長,也曾任復旦大學校長。
12.原書這章的題目是“On observation and experiment”。按照現在的習慣,“experiment”統一翻譯成“實驗”。前面用到的“臨床試驗”對應著“clinical trial”。“實驗”和“試驗”的意思似乎差別不大;中文英文皆如此。
13.Geng (1992) pp. 585–593; Geng and Asano (1993), pp. 741–747; Guo and Geng (1995), pp. 263–267; Geng, Guo and Fung (2002), pp. 3–15; Ma, Xie and Geng (2006), pp. 127–133。3.
14.Prentice 曾獲得年輕統計學家的最高獎 COPSS 獎章,終身成就獎“費希爾講座”,他是美國醫學院院士。魯賓是因果推斷的奠基人之一,曾獲得終身成就獎“費希爾講座”,美國科學院院士。Lauritzen 是英國皇家學會院士。
15.Chen, Geng and Jia (2007), pp. 911–932; Ju and Geng (2010), pp. 129–142; Jiang, Ding and Geng (2016) pp. 829–848。
16.文章是 VanderWeele (2013) Surrogate measures and consistent surrogates. Biomet69, 561–565。VanderWeele 曾獲COPSS 獎章。
17.https://terrytao.wordpress.com/2014/06/05/when-is-correlation-transitive/
18.Xie and Geng (2008), pp. 459–483; Ma, Xie and Geng (2008), pp. 2847–2880; He and Geng (2008), pp. 2523–2547; Liu et al. (2020)。
19.本希奧的文章 Towards Causal Representation Learning 出現在 https://arxiv.org/abs/2102.11107。
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~