導讀:大數據為什么不夠聰明?比概率語言更強大的思考工具是什么?科幻電影中的強人工智能到底怎樣實現?如何讓智能機器像人一樣思考?搞清楚因果關系才能撥云見日。
大數據為什么不夠聰明?比概率語言更強大的思考工具是什么?科幻電影中的強人工智能到底怎樣實現?如何讓智能機器像人一樣思考?搞清楚因果關系才能撥云見日。
圖靈獎得主、“貝葉斯網絡之父”朱迪亞·珀爾(Judea Pearl)的重磅力作 《為什么:關于因果關系的新科學》 中就為我們解答了這些問題。
人工智能領域中的大多數問題都是決策問題。1939 年,統(tǒng)計學家亞伯拉罕·沃德撰文指出參數估計和假設檢驗都是統(tǒng)計決策問題,甚至計劃把整個統(tǒng)計學納入統(tǒng)計決策理論的框架。損失函數是統(tǒng)計決策的起點,給定了損失函數,貝葉斯學派將始終如一地選擇期望損失最小的決策,有或沒有觀測數據時都是如此。頻率派則需要預先制定決策規(guī)則,基于損失函數和樣本定義一個風險函數,然后根據某些原則(如極大極小原則、貝葉斯風險原則等)來選擇最優(yōu)的決策。
如果決策是基于被動接受的觀測數據,那么它就處于因果關系之梯的第一層級,強烈地依賴于觀測數據,因而難免帶有偏頗。而有了第二層級的利器——干預,決策就可以不受觀察樣本的束縛,把一些樣本無法反映的事實揭露出來。簡而言之,達到第二層級的 AI 將具有主動實施行動來分析因果效應的能力,這種能力使得決策行為更加智能化。
第三層級的反事實推理允許機器擁有“想象能力”。反事實推理考慮的是一個假想世界,是無法通過直接觀測數據進行推理的,必須借助一個因果模型。
因果關系之梯
時至今日,深度學習依然是 AI 的熱點方法,甚至有人將之盲目地等同于 AI。其實,機器學習的方法多如牛毛,深度學習只是滄海一粟。理論上可以證明,人工智能即便在因果關系之梯的最低層級做到極致,也無法躍升到干預層面,更不可能進入反事實的世界。
作為處在因果關系之梯最低層級的機器學習技術,大數據分析就是多變量統(tǒng)計分析,深度學習就是隱層多了一些的神經網絡而已,理論上沒有太多新意。珀爾教授認為大數據分析和深度學習(甚至多數傳統(tǒng)的機器學習)都處于因果關系之梯的第一層級,因為它們的研究對象還是相關關系而非因果關系。
珀爾并沒有貶低處于因果關系之梯最低層級的相關性分析,他只是在提醒我們不要滿足于這個高度,還要繼續(xù)向上攀登。不同層級之間也可以形成合作,例如,在實踐中,深度學習可用于擬合強化學習中的策略,二者強強聯手,成為“深度強化學習”,后者曾作為核心技術之一在 AlphaGo(“阿爾法狗”)那里大放異彩。
眾所周知,這輪 AI 的爆發(fā)在很大程度上得益于算力的提升,例如,深度學習就是人工神經網絡借助算力的“卷土重來”,把數據驅動的方法推向了一個巔峰。人們甚至產生了一個幻覺 ——“所有科學問題的答案都藏于數據之中,有待巧妙的數據挖掘技巧來揭示”。珀爾教授批判了這種思潮,他將因果模型置于更高的位置,把數學或統(tǒng)計建模的榮耀重新歸還給了相應領域的專家。我們希望,未來的機器學習可以不再靠煉金術士的碰運氣而獲得成功,隨著知識推理和計算越發(fā)受到關注,可解釋 AI 將從關于因果關系的新科學中汲取更多的力量,甚至可以闖進反事實的世界。
DeepMind 研發(fā)的 AlphaGo 圍棋程序在 2016 年首次打敗了人類頂尖圍棋高手李世石,次年橫掃所有人類高手取得全勝(包括以 3∶0 戰(zhàn)勝柯潔)。聶衛(wèi)平(九段)稱它的水平為“至少二十段”。AlphaGo 采用深度強化學習和蒙特卡羅樹搜索,其最終版本 AlphaGo Zero 僅需要 3 天便可自我訓練至戰(zhàn)勝李世石的水平。2017 年,DeepMind 宣布 AlphaGo“退役”, 不再參加任何圍棋比賽。
在棋類游戲中,圍棋所包含的巨大的搜索空間(其狀態(tài)數遠遠超過整個宇宙中的原子數)一直是機器學習未能攻克的難題,甚至一度被認為在近期內是不可能被 AI 解決的。AlphaGo 的成功不僅讓人們看到了強化學習和隨機模擬技術(也稱“蒙特卡羅”技術)的魅力,也讓深度學習變得更加炙手可熱。冷靜之余,人們認識到 AlphaGo 的算法更適用于大規(guī)模概率空間的智能搜索,其環(huán)境和狀態(tài)都是可模擬的。DeepMind 的創(chuàng)始人德米斯·哈薩比斯表示,對于那些環(huán)境難以模擬的決策問題(如自動駕駛),這些算法也無能為力。珀爾在《為什么》第十章也談論了 AlphaGo,他認為缺乏可解釋性是它的硬傷。
拿強化學習來說,它不同于有監(jiān)督學習(supervised learning)和無監(jiān)督學習(unsupervised learning),是基于馬爾科夫決策過程發(fā)展起來的第三類機器學習方法——智能體通過與環(huán)境互動變得越來越“聰明”。強化學習和因果推斷都尋求策略(policy),其中,行動之間是有因果關系的,但因果推斷更開放一些,它可以利用數據之外的知識來推斷策略的效果。強化學習允許推斷干預的結果,因此能攀上因果關系之梯的第二層級。通過模擬環(huán)境,強化學習無須從現實世界獲取觀測數據來訓練模型,所以也有可能產生反事實從而登上因果關系之梯的第三層級。盡管目前的強化學習很少用到先驗知識,我們仍很好奇強化學習和因果推斷的理論聯系。
未來人工智能的發(fā)展也有“綜合”的趨勢。譬如,語音、圖像、視頻數據等都可以轉換成文字,而 AI 技術則能幫助我們加深對數據的理解。同時,借助 AI 技術(包括因果推斷)更好地理解數據也能助力模型訓練并改進應用效果。同理,因果論和現有的機器學習等 AI 技術有沒有可能聯手互惠互利?例如,因果推斷所考慮的變量越多,對計算的挑戰(zhàn)就越大,那么,基于蒙特卡羅方法的近似計算是否能其助一臂之力?機器學習能否幫助和改進因果建模?這些問題都有待深入的研究。
因果的形式化理論,不僅解決了困擾統(tǒng)計學家很多年的一些悖論,更重要的是,(1)利用“干預”讓人類和機器擺脫了被動觀察,從而轉向主動地去探索因果關系,以便做出更好的決策;(2)利用“反事實推理”擴展了想象的空間,從而擺脫了現實世界的束縛。這兩點突破實現了因果革命,并分別構成了因果關系之梯的第二層級和第三層級的內容。沿著因果關系之梯,機器便有望擁有強人工智能。