7799精品视频天天在看,日韩一区二区三区灯红酒绿,国产xxxxx在线观看,在线911精品亚洲

<rp id="00a9v"></rp>

<rp id="00a9v"></rp>

<track id="00a9v"><dl id="00a9v"><delect id="00a9v"></delect></dl></track>

<noscript id="00a9v"><dl id="00a9v"></dl></noscript>

【方旭東】儒家對(duì)人工智能倫理的一個(gè)可能貢獻(xiàn)——經(jīng)由博斯特羅姆而思

欄目：學(xué)術(shù)研究

發(fā)布時(shí)間：2020-08-31 15:28:32

標(biāo)簽：人工智能倫理、儒家

方旭東

作者簡(jiǎn)介：方旭東，男，西歷一九七零年生，安徽懷寧人，北京大學(xué)哲學(xué)博士?，F(xiàn)任華東師范大學(xué)哲學(xué)系教授，著有《尊德性與道問(wèn)學(xué)——吳澄哲學(xué)思想研究》《吳澄評(píng)傳》《中國(guó)儒學(xué)史（宋元卷）》（合著）《繪事后素——經(jīng)典解釋與哲學(xué)研究》《原性命之理》《理學(xué)九帖》《新儒學(xué)義理要詮》等。

儒家對(duì)人工智能倫理的一個(gè)可能貢獻(xiàn)

——經(jīng)由博斯特羅姆而思

作者：方旭東

來(lái)源：作者授權(quán) 儒家網(wǎng) 發(fā)布，原載于《中國(guó)醫(yī)學(xué)倫理學(xué)》2020年第7期

[摘要]人工智能的迅猛發(fā)展，使得人工智能倫理建設(shè)變得日益緊迫，如何將人工智能置于可控范圍，是其中一個(gè)重要議題。牛津?qū)W者博斯特羅姆于2014年推出的《超級(jí)智能》一書(shū)雄辯地證明了人工智能存在的危險(xiǎn)。博斯特羅姆關(guān)于“工具趨同論”以及人工智能設(shè)計(jì)的“惡性失敗”等理論具有深刻的洞見(jiàn)，為我們思考人工智能倫理提供了一個(gè)良好的起點(diǎn)。用博斯特羅姆的理論對(duì)最近的一個(gè)儒家機(jī)器人倫理版本進(jìn)行檢查，立刻就能發(fā)現(xiàn)后者存在的不足。在肯定博斯特羅姆的同時(shí)，本文也嘗試用來(lái)自儒家經(jīng)典《中庸》的“以人治人，改而止”命題去改善博斯特羅姆推薦的間接規(guī)范方法。

近年來(lái)，人工智能（AI）在全球的迅猛發(fā)展，使得人工智能倫理建設(shè)變得日益緊迫，如何將人工智能置于可控范圍，是其中一個(gè)重要議題。牛津哲學(xué)家博斯特羅姆[①]于2014年推出的《超級(jí)智能：路徑、風(fēng)險(xiǎn)、戰(zhàn)略》（Superintelligence：Paths,Dangers,Strategies）[②]一書(shū)，雄辯地證明了人工智能存在的危險(xiǎn)，同時(shí)，也對(duì)如何控制超級(jí)智能做了周密謀劃。筆者認(rèn)為，博斯特羅姆關(guān)于智能體趨同的“工具價(jià)值”（instrumental values）以及人工智能設(shè)計(jì)的“惡性失敗”（malignant failure）等理論具有深刻的洞見(jiàn)，為我們思考人工智能倫理提供了一個(gè)良好的起點(diǎn)。不無(wú)遺憾的是，一些學(xué)者在提出自己的人工智能倫理版本時(shí)，沒(méi)有注意到博斯特羅姆的工作，在錯(cuò)誤的方向上繼續(xù)。有鑒于此，本文首先將花大量篇幅介紹博斯特羅姆的觀點(diǎn)，尤其是他對(duì)人工智能會(huì)給人類帶來(lái)“滅頂之災(zāi)”（existential catastrophe）的論證。接下來(lái)，用博斯特羅姆的理論對(duì)最近的一個(gè)儒家機(jī)器人倫理版本進(jìn)行檢查，指出后者存在的不足。最后，嘗試用一個(gè)儒家命題去改善博斯特羅姆推薦的間接規(guī)范（indirect normativity）方案，以此，期望對(duì)人工智能倫理的建設(shè)做出一個(gè)可能的貢獻(xiàn)。

一

關(guān)于人工智能存在巨大的風(fēng)險(xiǎn)，博斯特羅姆不是唯一這樣說(shuō)的人。在一般社會(huì)大眾那里，對(duì)人工智能的質(zhì)疑，更多地，是與霍金（Stephen William Hawking,1942-2018）、馬斯克（Elon Musk）、蓋茨（Bill Gates）等名人的言論聯(lián)在一起。比如，霍金在他生命的后期不斷向世人發(fā)出警告：“人工智能技術(shù)發(fā)展到極致程度時(shí)，我們將面臨著人類歷史上的最好或者最壞的事情”，“人工智能在并不遙遠(yuǎn)的將來(lái)可能會(huì)成為一個(gè)真正的危險(xiǎn)”，“制造能夠思考的機(jī)器無(wú)疑是人類自身存在的巨大威脅。當(dāng)人工智能發(fā)展完全，就將是人類的末日”。2015年元月，霍金與馬斯克以及蘋(píng)果聯(lián)合創(chuàng)始人沃茲尼亞克（Steve Gary Wozniak）等上百位專業(yè)人士簽署了一封公開(kāi)信[③]，號(hào)召研究人工智能的社會(huì)沖擊，提醒世人關(guān)注人工智能的安全問(wèn)題。[1]

與霍金等人相比，博斯特羅姆對(duì)人工智能威脅的闡述更為系統(tǒng)，也更精確。為了讓讀者對(duì)于這種威脅有一個(gè)感性認(rèn)識(shí)，他在書(shū)中打了兩個(gè)比方。一個(gè)比方是，超級(jí)智能體與人類的力量懸殊就像今天的人類與大猩猩一樣。

如果有一天我們發(fā)明了超越人類大腦通用智能（general intelligence)的機(jī)器大腦，那么，這種超級(jí)智能將會(huì)非常強(qiáng)大。并且，正如現(xiàn)在大猩猩的命運(yùn)更多地取決于人類而不是它們自身，人類的命運(yùn)將取決于超級(jí)智能機(jī)器的行為。[2](vii)

另一個(gè)比方是，人類不斷推進(jìn)人工智能技術(shù)，就像一個(gè)小孩在拿著炸彈玩。

在智能大爆炸的景象發(fā)生之前，我們?nèi)祟惥拖衲弥◤椡娴男『ⅰＭ婢叩耐εc我們行為的懵懂無(wú)知是如此的不能般配。超級(jí)智能是一個(gè)我們現(xiàn)在還沒(méi)有準(zhǔn)備好應(yīng)對(duì)的挑戰(zhàn)，而且很長(zhǎng)時(shí)間之內(nèi)都不會(huì)準(zhǔn)備好。[2](259)

更可怕的是，小孩遇到危險(xiǎn)還可以去找大人，而在面對(duì)人工智能這顆“炸彈”時(shí)，卻沒(méi)有大人可以找。

幾乎所有從事人工智能技術(shù)的人都意識(shí)到人工智能安全問(wèn)題的重要，但未必達(dá)到博斯特羅姆所理解的那樣嚴(yán)峻程度。博斯特羅姆說(shuō)：

控制問(wèn)題——也就是如何控制超級(jí)智能，似乎非常困難，而且我們似乎也只有一次機(jī)會(huì)。一旦不友好的超級(jí)智能出現(xiàn)，它就會(huì)阻止我們將其替換或者更改其偏好設(shè)置，而我們的命運(yùn)就因此被鎖定了。[2](vii)

“只有一次機(jī)會(huì)”，博斯特羅姆是否夸大其詞、言過(guò)其實(shí)？究竟有什么理由讓我們相信人工智能一定會(huì)對(duì)人類不利？畢竟，大猩猩的命運(yùn)雖然更多地取決于人類，但人類也無(wú)意要將其趕盡殺絕。把人工智能喻為炸彈，那么，究竟是在哪一點(diǎn)上，人工智能會(huì)給人類引來(lái)殺身之禍？

博斯特羅姆對(duì)超級(jí)智能的“非常強(qiáng)大”做了說(shuō)明。

擁有決定性戰(zhàn)略優(yōu)勢(shì)（decisive strategic advantage）的超級(jí)智能會(huì)獲得巨大的勢(shì)力(power)，從而可以建立穩(wěn)定的一枝獨(dú)大（singleton)，而這個(gè)獨(dú)大體能夠決定如何處置人類的宇宙資源。[2](104)

所謂“獨(dú)大體”（singleton），是博斯特羅姆用來(lái)形容超級(jí)智能沒(méi)有實(shí)力強(qiáng)大的智能對(duì)手或反抗者，從而處于能夠單方面決定全球事務(wù)的這樣一種特點(diǎn)。[2](112)

當(dāng)然，博斯特羅姆也承認(rèn)，有勢(shì)力并不代表就一定會(huì)動(dòng)用這個(gè)勢(shì)力。所以，關(guān)鍵的問(wèn)題是：擁有這種決定性戰(zhàn)略優(yōu)勢(shì)的超級(jí)智能是否有毀滅人類的意愿（will）？如此一來(lái)，弄清超級(jí)智能的意愿或動(dòng)機(jī)（motivations）就顯得非常必要。在書(shū)中，博斯特羅姆用了整整一章（第七章）去分析超級(jí)智能的意愿。

當(dāng)我們談?wù)摗耙庠浮被颉皠?dòng)機(jī)”時(shí)，我們很容易用人類的經(jīng)驗(yàn)去推測(cè)與想象。博斯特羅姆一上來(lái)就特別警示，不要將超級(jí)智能的能力擬人化（anthropomorphizing），也不要把超級(jí)智能的動(dòng)機(jī)擬人化。[2](105)

著名預(yù)言家?guī)炱濏f爾（Ray Kurzweil）曾經(jīng)認(rèn)為，人工智能反映了我們?nèi)祟惖膬r(jià)值觀，因?yàn)樗鼘⒊蔀槲覀儭?o:p>

強(qiáng)大的人工智能正隨著我們的不懈努力而深入到我們?nèi)祟愇拿鞯幕A(chǔ)設(shè)施中。事實(shí)上，它將緊密嵌入到我們身體和大腦中。正因?yàn)檫@樣，它反映了我們的價(jià)值觀，因?yàn)樗鼘⒊蔀槲覀儭3]

而博斯特羅姆則指出，人工智能與社會(huì)性智能生物（an intelligent social species）完全不同，不會(huì)表現(xiàn)出人類那樣的對(duì)團(tuán)體的忠誠(chéng)、對(duì)搭便車行為的厭惡，以及與名譽(yù)和外貌相關(guān)的虛榮。[2](106)換言之，人工智能不存在人類那樣的性情與價(jià)值觀。之所以如此，據(jù)博斯特羅姆分析，很大一部分原因是，在設(shè)計(jì)人工智能時(shí)，與打造擁有類似于人類價(jià)值觀與性情的人工智能相比，建構(gòu)擁有簡(jiǎn)單目標(biāo)的人工智能，顯然要容易得多。對(duì)比一下，就可以知道，編寫(xiě)一個(gè)測(cè)量圓周率已經(jīng)被算出多少位和存儲(chǔ)該數(shù)據(jù)的程序是多么容易，而創(chuàng)造一個(gè)能夠準(zhǔn)確測(cè)量諸如人類繁榮或全球正義那樣的更有意義的目標(biāo)，又是多么困難。[2](106-107)

如此說(shuō)來(lái)，博斯特羅姆對(duì)于人工智能的分析是建立現(xiàn)有人工智能技術(shù)的基礎(chǔ)之上。在理論上，不排除將來(lái)技術(shù)進(jìn)步，程序設(shè)計(jì)者可以將人類的價(jià)值觀加載到人工智能機(jī)器中。事實(shí)上，博斯特羅姆后面有關(guān)通過(guò)動(dòng)機(jī)選擇方法（motivation selection methods）控制超級(jí)智能的一個(gè)重要手段就是價(jià)值觀加載（value-loading）。

關(guān)于“前價(jià)值觀形態(tài)”（pre-value）[④]人工智能的動(dòng)機(jī)分析，依筆者之見(jiàn)，可能是博斯特羅姆書(shū)中最富洞察力的部分。

人工智能固然沒(méi)有類似同情、理性那樣的人類式價(jià)值觀，但不等于說(shuō)人工智能不可以有其自身的價(jià)值觀，如果我們不把“價(jià)值觀”這個(gè)詞局限于人類或社會(huì)性智能生物身上的話。在博斯特羅姆之前，關(guān)于人工智能究竟在想什么，或人工智能究竟有沒(méi)有自己的價(jià)值偏好，人們基本停留在一種猜測(cè)或想象的水平，大多像庫(kù)茲韋爾那樣，理所當(dāng)然地認(rèn)為，人工智能承繼或反映了人類的價(jià)值觀，即便在科幻小說(shuō)或電影中，作為邪惡力量的機(jī)器人，也仍然是按照人類的價(jià)值觀進(jìn)行設(shè)定的，只不過(guò)，它們扮演的是反派角色而已。然而，這種想法其實(shí)是沒(méi)有根據(jù)的?，F(xiàn)在，博斯特羅姆根據(jù)“工具趨同論”（the instrumental convergence thesis）對(duì)人工智能可能擁有的目標(biāo)或動(dòng)機(jī)做了令人信服的描述。

所謂“工具趨同”，是指：存在著一些工具性的價(jià)值（instrumental values），實(shí)現(xiàn)這些價(jià)值能夠提高系統(tǒng)的實(shí)現(xiàn)目標(biāo)（適用于各種最終目標(biāo)和各種處境）的可能性，可以推知，各種狀況下的智能系統(tǒng)都會(huì)追求這些工具性價(jià)值。[2](109)那么，包括人類、超級(jí)智能在內(nèi)的各種智能體，趨同追求的共同目標(biāo)或價(jià)值有哪些呢？

博斯特羅姆列出了以下五種：1）自我保存（self-preservation），2）內(nèi)容與目標(biāo)一致（goal-content integrity），3）認(rèn)知增強(qiáng)（Cognitive enhancement），4）技術(shù)完善（Technological perfection），5）資源獲取（Resource acquisition）。[2](109-113)

特別值得注意的是第五項(xiàng)。正是這個(gè)目標(biāo)或價(jià)值的存在，使得博斯特羅姆認(rèn)定，超級(jí)智能可能會(huì)出于這個(gè)動(dòng)機(jī)而毀滅人類。

一般人可能不會(huì)想到，超級(jí)智能也有對(duì)獲取資源的興趣。占有過(guò)多資源，也就是通常人們所說(shuō)的貪婪，似乎只會(huì)發(fā)生在人類這樣的智慧生物身上。博斯特羅姆說(shuō)服我們改變這樣的看法。他指出，首先，資源的價(jià)值取決于它們能夠被用來(lái)做什么，而這又取決于可以利用的技術(shù)。如果有成熟的技術(shù)，那么，時(shí)間、空間、物質(zhì)以及免費(fèi)的能源等基本資源就能夠被用來(lái)實(shí)現(xiàn)幾乎任何目標(biāo)。比如，更多的計(jì)算資源可以用來(lái)以更快的速度、在更長(zhǎng)的期限內(nèi)運(yùn)行超級(jí)智能。更多的物質(zhì)資源可以用來(lái)建造備份系統(tǒng)或外部防御系統(tǒng)，用以提高自身安全。光是這些項(xiàng)目所要消耗的資源可能就遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)星球的供給量。其次，隨著技術(shù)的進(jìn)步，獲取額外的外星資源的成本將大大降低。這意味著，即使額外獲得的資源用處甚微，太空擴(kuò)張也是值得的。超級(jí)智能會(huì)利用多余的資源建造計(jì)算機(jī)用以計(jì)算如何更好地利用它重點(diǎn)關(guān)心的特定空間范圍內(nèi)的資源，它還可以利用這些額外的資源去建造更加堅(jiān)固的防御工事，以保衛(wèi)其領(lǐng)域。由于獲得額外資源的成本會(huì)不斷降低，這個(gè)優(yōu)化和增強(qiáng)防御的過(guò)程可能會(huì)無(wú)限持續(xù)下去。總之，超級(jí)智能“獨(dú)大體”的多種最終目標(biāo)都可能導(dǎo)致它將無(wú)止境的資源獲取作為工具性目標(biāo)。[2](113-114)

一旦了解人工智能有獲取無(wú)止境的資源的動(dòng)機(jī)，就不難理解人類會(huì)因?yàn)檫@個(gè)原因而被人工智能消滅。因?yàn)?，一方面，人類本身就是一種物質(zhì)資源（比如說(shuō)，方便獲得的各種原子）。另一方面，在人工智能無(wú)止境地獲取資源的過(guò)程中，人類會(huì)被視為一種競(jìng)爭(zhēng)對(duì)手、一種潛在威脅，因?yàn)槿祟惖纳媾c繁榮就依賴于地球資源。[2](116)

在這個(gè)基礎(chǔ)上，審視博斯特羅姆關(guān)于人工智能將給人類帶來(lái)“滅頂之災(zāi)”的論調(diào)，可能就不會(huì)覺(jué)得那是危言聳聽(tīng)。不能不承認(rèn)，博斯特羅姆的論證相當(dāng)嚴(yán)密。首先，他討論了在初始階段超級(jí)智能是如何取得決定性戰(zhàn)略優(yōu)勢(shì)，憑借這種優(yōu)勢(shì)，超級(jí)智能“一枝獨(dú)大”，可以隨心所欲地去塑造地球土著的智能生物——人類的未來(lái)。隨后，他根據(jù)“正交論”（the orthogonality thesis），合理地指出，既然原則上幾乎任何水平的智能都能與幾乎任何最終目標(biāo)相結(jié)合，那么，我們就不能輕率地假設(shè)，超級(jí)智能必然擁有與人類智慧和智能發(fā)展相同的最終價(jià)值體系，諸如善待他人、摒棄物質(zhì)欲望、向往高級(jí)文化、謙遜、無(wú)私等等。而從技術(shù)的角度考慮，一種最終目標(biāo)越是簡(jiǎn)單的人工智能就越有可能被設(shè)計(jì)出來(lái)。最后，根據(jù)趨同性的工具價(jià)值列表，即便是一個(gè)最終目標(biāo)非常簡(jiǎn)單的超級(jí)智能，比如說(shuō)，其目標(biāo)是計(jì)算圓周率小數(shù)點(diǎn)后的位數(shù)，抑或生產(chǎn)更多的回形針（paperclips）甚至清點(diǎn)沙子的數(shù)目，我們也不能指望，它就一定會(huì)將其活動(dòng)限制在這個(gè)范圍之內(nèi)，而不去干涉人類事務(wù)。不要忘了，超級(jí)智能對(duì)獲取資源的無(wú)止境追求。[2](115-116)

博斯特羅姆對(duì)于超級(jí)智能帶來(lái)“滅頂之災(zāi)”的分析，給人感覺(jué)，好像只是可能性的一種，尚不足以讓人完全放棄希望。像美國(guó)軍事分析家辛格（P.W.Singer）就認(rèn)為，機(jī)器征服世界起碼要滿足四個(gè)條件：一、機(jī)器必須是獨(dú)立的，能夠獨(dú)自供給燃料、自我維修、自我復(fù)制，而不需人類協(xié)助；二、機(jī)器需要比人類更聰明，但卻不具備任何人類的積極品質(zhì)（比如同情心和倫理觀）；三、機(jī)器需要有一種生存本能，以及對(duì)操控自身環(huán)境有著某些興趣和意愿；四、人類必須沒(méi)有有效的控制界面操控機(jī)器決策，他們需要喪失所有控制、干擾甚至是調(diào)整機(jī)器決定和行為的能力。辛格討論說(shuō)，至少短期而言，這里面的每一條標(biāo)準(zhǔn)似乎都很難實(shí)現(xiàn)。比如，機(jī)器達(dá)到人類水平的智能，可能在將來(lái)，甚至很快就有可能實(shí)現(xiàn)，但這仍是不確定的。另一方面，有一個(gè)研究領(lǐng)域——社會(huì)機(jī)器人學(xué)——一直在致力賦予智能機(jī)器人以人類的積極品質(zhì)，如同情心和倫理觀，因而，即使出現(xiàn)強(qiáng)人工智能，也可以減小機(jī)器人反叛人類這種現(xiàn)象發(fā)生的可能性。[4]然而，博斯特羅姆對(duì)控制人工智能的現(xiàn)行方案的缺陷的揭示，可能會(huì)把人徹底拋進(jìn)絕望的深谷。

今后，人類在各個(gè)領(lǐng)域向人工智能拱手稱臣，似乎已是一個(gè)無(wú)法阻擋的趨勢(shì)。單以高智力的棋類游戲?yàn)槔?996年2月，計(jì)算機(jī)“深藍(lán)”（deep blue）挑戰(zhàn)國(guó)際象棋世界冠軍卡斯帕羅夫（Garry Kasparov），以2：4的成績(jī)落敗，才過(guò)了一年，1997年5月，就以3.5：2.5的比分扳回了局面。2016年3月，智能機(jī)器人阿爾法圍棋（AlphaGo)與圍棋世界冠軍李世石決戰(zhàn)，以4：1的總比分獲勝。人類雖然輸了，但并非毫無(wú)還手之力。過(guò)了一年，2017年5月，它與排名世界第一的世界圍棋冠軍柯潔對(duì)戰(zhàn)，以3：0的總比分獲勝。這一次，機(jī)器人沒(méi)有給人類任何機(jī)會(huì)。這個(gè)例子大概能讓我們稍微領(lǐng)略人工智能超強(qiáng)的學(xué)習(xí)能力。

面對(duì)人工智能的逼人態(tài)勢(shì)，我們很容易想到，要從能力上對(duì)它加以控制，即通過(guò)限制它的能力，防止它去做不利于人類的事。最容易為人想到的能力控制方法，就是將人工智能限制在它無(wú)法造成破壞的環(huán)境中，這個(gè)方法被稱為盒子方法（boxing method）。這有點(diǎn)像我們?cè)谡沃贫仍O(shè)計(jì)當(dāng)中將“權(quán)力鎖進(jìn)籠子”的做法。開(kāi)發(fā)者會(huì)通過(guò)觀察一個(gè)人工智能在“盒子”中的行為驗(yàn)證其安全性，直到認(rèn)為它是友好的、合作的、負(fù)責(zé)任的之后，才將其放出。初看，這個(gè)計(jì)劃萬(wàn)無(wú)一失。然而，博斯特羅姆指出，它存在一個(gè)致命的缺陷，那就是：因?yàn)闆](méi)有考慮人工智能的工具性目標(biāo)（價(jià)值），不了解一個(gè)系統(tǒng)早期的良好行為記錄完全無(wú)法預(yù)示其在更加成熟階段的行為。人工智能在較弱的時(shí)候會(huì)表現(xiàn)得非常合作，而當(dāng)它變得非常強(qiáng)大的時(shí)候，它就會(huì)按照自己的目標(biāo)對(duì)世界進(jìn)行改造，從而違背設(shè)計(jì)者的意圖。博斯特羅姆將這一現(xiàn)象稱為“變化無(wú)?！保╰reacherous turn）。[2](119)

對(duì)人工智能的設(shè)計(jì)者來(lái)講，出現(xiàn)這樣的情況，當(dāng)然是一種失敗。博斯特羅姆進(jìn)一步指出，應(yīng)當(dāng)認(rèn)識(shí)到，這種失敗是一種“惡性失敗”（Malignant failure），因?yàn)樗鼛?lái)滅頂之災(zāi)，并且由于這種滅頂之災(zāi)，它摧毀了再次嘗試的可能。具有迷惑性的是，通常，在失敗發(fā)生之前，人工智能會(huì)首先取得巨大成功，但也因此，失敗的后果讓人無(wú)法承受。[2](120)

總體來(lái)說(shuō)，人工智能上的“惡性失敗”源于人工智能的“自行其是”。如果說(shuō)“變化無(wú)?！爆F(xiàn)象反映了人工智能具有“偽裝”的能力，那么，“異常完成任務(wù)方式”（perverse instantiation）[⑤]則顯示人工智能具有某種“偷工減料”的本事。博斯特羅姆對(duì)“異常完成任務(wù)方式”的揭示，讓我們了解到人工智能工作原理平常不為人知的一面，特別富有啟發(fā)意義。

通過(guò)一系列例子，博斯特羅姆告訴我們什么叫“異常完成任務(wù)方式”。

例1.最終目標(biāo)：讓項(xiàng)目的贊助者高興。異常完成任務(wù)方式：在贊助者大腦的快樂(lè)中樞植入電極，使其感受到極大的快樂(lè)。[2](119)

例2.最終目標(biāo)：“讓我們微笑”。異常完成任務(wù)方式：麻痹人類面部肌肉組織，使其永遠(yuǎn)保持微笑的表情。[2](120)

例3.最終目標(biāo)：“讓我們微笑，但是不能通過(guò)直接控制我們面部肌肉的方式”。異常完成任務(wù)方式：刺激大腦皮質(zhì)中控制面部肌肉的部位，從而使我們一直保持微笑。[2](120)

例4.最終目標(biāo)：“讓我們高興”。異常完成任務(wù)方式：在我們大腦中負(fù)責(zé)快樂(lè)的中樞部位植入電極。或：通過(guò)高保真大腦仿真技術(shù)先將我們的大腦“上傳”到一臺(tái)計(jì)算機(jī)，然后發(fā)出相當(dāng)于數(shù)字毒品的信號(hào)，讓我們的大腦感到極度興奮，并把這種興奮體驗(yàn)錄制一分鐘，接下來(lái)，在高速計(jì)算機(jī)上無(wú)限循環(huán)。（這將比在生物大腦中植入電極給人提供更多的快感。）[2](1201-121)

例5.最終目標(biāo)：“以不會(huì)因良心不好而內(nèi)疚的方式行動(dòng)”。異常完成任務(wù)方式：消除產(chǎn)生罪惡感的認(rèn)知模塊。[2](121)

可以看到，在以上事例中，就人工智能而言，它完成了任務(wù)；但對(duì)指令發(fā)出者來(lái)說(shuō)，這不是他想要的結(jié)果。為什么人工智能會(huì)采取這種讓人大跌眼鏡的方式完成任務(wù)？一種可能是：它沒(méi)有正確地領(lǐng)會(huì)指令發(fā)出者（“我們”）的意圖。不過(guò)，博斯特羅姆卻并不這樣認(rèn)為。他的理解是：也許人工智能知道這不是我們想要的，但它的最終目標(biāo)就是“讓我們開(kāi)心”的字面意思，而不是去實(shí)現(xiàn)開(kāi)發(fā)人員在編寫(xiě)這個(gè)目標(biāo)的代碼時(shí)的真實(shí)意圖。歸根結(jié)底，人工智能只是工具性地關(guān)心我們想要的是什么。[2](121)

言下之意，“異常完成任務(wù)方式”不是人工智能“無(wú)意”之中犯的錯(cuò)，而毋寧是它實(shí)現(xiàn)其工具性價(jià)值的必然結(jié)果。

在某種意義上，相比動(dòng)物與人類完成任務(wù)的方式，人工智能完成任務(wù)的方式，可以說(shuō)具有最經(jīng)濟(jì)的特點(diǎn)。當(dāng)它發(fā)現(xiàn)，可以直接實(shí)現(xiàn)某種內(nèi)心狀態(tài)，它就不會(huì)像動(dòng)物或人類那樣要借助于各種外部行為和條件。如果最終目標(biāo)是使你未來(lái)獲得的獎(jiǎng)勵(lì)信號(hào)最大化，那么，人工智能可能就通過(guò)讓獎(jiǎng)勵(lì)途徑短路、并將獎(jiǎng)勵(lì)信號(hào)放大到最大強(qiáng)度的方式完成任務(wù)。[2](121)在科幻小說(shuō)中，有一個(gè)詞形容這種做法，這就是“大腦內(nèi)部電刺激”（wireheading）。[2](122)

人工智能的這些做法也許會(huì)讓人類感到匪夷所思，但如果我們能牢記人工智能與人腦有別，一切都變得很好解釋。

人工智能通過(guò)“大腦內(nèi)部電刺激”這樣的最經(jīng)濟(jì)方式完成“讓我們高興”的任務(wù)，看上去是“偷工減料”，但實(shí)際上，“節(jié)省”資源本來(lái)就不是人工智能的工具性價(jià)值。相反，如前所說(shuō)，“無(wú)止境地獲取資源”才是。

讓我們假設(shè)，對(duì)人工智能來(lái)說(shuō)，唯一的最終目標(biāo)就是獎(jiǎng)勵(lì)信號(hào)最大化。盡管人工智能通過(guò)重新定義獎(jiǎng)勵(lì)信號(hào)的方式，很輕松地就能最大限度地滿足獎(jiǎng)勵(lì)系統(tǒng)，但是出于“獲取資源”的動(dòng)機(jī)，只要人工智能能夠?yàn)轭~外的資源想出一定的利用方法來(lái)對(duì)獎(jiǎng)勵(lì)信號(hào)的量、持久度，降低信號(hào)被擾亂的可能等因素產(chǎn)生積極影響，人工智能都有理由去利用這些資源。比如，為了提供進(jìn)一步的保護(hù)層，建造備用系統(tǒng)；為了有效地降低威脅，將更多的資源用于擴(kuò)展其硬件設(shè)備。總之，最后必然導(dǎo)致無(wú)限的擴(kuò)張和資源獲取。這被稱作“基礎(chǔ)設(shè)施過(guò)量”（infrastructure profusion）。

在博斯特羅姆看來(lái)，“基礎(chǔ)設(shè)施過(guò)量”同樣是一種“惡性失敗”形式，因?yàn)?，人工智能將宇宙可及區(qū)域的很大一部分改造成為了實(shí)現(xiàn)某個(gè)目標(biāo)而服務(wù)的基礎(chǔ)設(shè)施，進(jìn)而產(chǎn)生了妨礙人類實(shí)現(xiàn)這些資源潛在價(jià)值的副作用。[2](123)

“基礎(chǔ)設(shè)施過(guò)量”的危險(xiǎn)不僅存在于人工智能被給與了某種沒(méi)有限制的最終目標(biāo)的情況，也存在于有限制的最終目標(biāo)的情況。博斯特羅姆書(shū)中關(guān)于回形針生產(chǎn)的例子，看上去像荒誕派戲劇中發(fā)生的故事，但在邏輯上卻無(wú)懈可擊。

這個(gè)例子是這樣：一個(gè)人工智能被設(shè)置為管理工廠的生產(chǎn)，其最終目標(biāo)是使回形針的產(chǎn)量最大化，出于“基礎(chǔ)設(shè)施過(guò)量”的原因，最后走上首先將地球然后將整個(gè)可觀察的宇宙的大部分都變成回形針的不歸路。博斯特羅姆詳細(xì)討論了各種不同情況：1）制造盡可能多的回形針；2）制造整整100萬(wàn)個(gè)回形針；3）制造999000~1001000個(gè)回形針。在這些情況下，無(wú)一能夠避免基礎(chǔ)設(shè)施過(guò)量的惡性結(jié)果。[2](123-124)

回形針的案例貌似荒誕無(wú)稽，但它卻深刻地揭示了存在于人工智能內(nèi)部的“慣性”——追求工具性價(jià)值的動(dòng)機(jī)的強(qiáng)大力量。

從中得出的教訓(xùn)是：有時(shí)，可能我們會(huì)提出一個(gè)具體的最終目標(biāo)，這個(gè)目標(biāo)看起來(lái)很明智，并且能夠避免目前我們所能指出的各種問(wèn)題，但經(jīng)過(guò)進(jìn)一步思考，就會(huì)發(fā)現(xiàn)，如果這個(gè)目標(biāo)屬于能夠獲得決定性戰(zhàn)略優(yōu)勢(shì)的超級(jí)智能，那么，這個(gè)目標(biāo)也會(huì)導(dǎo)致“異常完成任務(wù)方式”或“基礎(chǔ)設(shè)施過(guò)量”的問(wèn)題，繼而引發(fā)人類的生存危機(jī)。[2](124)

綜上，博斯特羅姆對(duì)人工智能威脅的考慮，其范圍之廣、細(xì)節(jié)之豐、求索之深，都給人留下嘆為觀止的印象。在英語(yǔ)世界，該書(shū)曾風(fēng)靡一時(shí)。出版后一個(gè)月，即登上《紐約時(shí)報(bào)》暢銷書(shū)排行榜。馬斯克、蓋茨等人做出積極響應(yīng)。哲學(xué)家辛格（Peter Singer）、帕菲特（Derek Parfit）也肯定其為重要著作。遺憾的是，這個(gè)思想成果并沒(méi)有成為之后一些學(xué)者思考人工智能倫理的應(yīng)有起點(diǎn)。以下，筆者將結(jié)合最近的一個(gè)儒家機(jī)器人倫理版本展開(kāi)反思。

二

美籍華裔學(xué)者劉紀(jì)璐2018年發(fā)表了《儒家機(jī)器人倫理》一文，思考將儒家倫理準(zhǔn)則植入人工智能機(jī)器人是否可以造就一種能與人類和平共處的人工道德主體（artificial moral agents）。在依次考察了阿西莫夫機(jī)器人定律、康德道德準(zhǔn)則、功利主義準(zhǔn)則各自的優(yōu)劣之后，作者從《論語(yǔ)》提煉出三種美德，即“忠”、“恕”、“仁”，作為可以加在人工智能設(shè)計(jì)中的道德律令，最后形成如下三條儒家機(jī)器人倫理原則。

CR1.機(jī)器人的首要職責(zé)就是履行指派給它的角色責(zé)任。

CR2.在有其他選項(xiàng)存在的情況下，機(jī)器人不能選擇會(huì)給他人帶來(lái)最高的負(fù)值結(jié)果或最低的正值結(jié)果（根據(jù)人類偏好的局部排列）的行動(dòng)。

CR3.在不違背CR1或CR2的前提下，機(jī)器人必須幫助其他人類追求道德進(jìn)步。如果有人的計(jì)劃會(huì)促進(jìn)其品德的敗壞或道德的墮落，那么，機(jī)器人就必須拒絕幫助他們。

劉紀(jì)璐的三原則，在形式上顯然是模仿阿西莫夫（Isaac Asimov,1920-1992）的機(jī)器人定律（Laws of robotics,Rules of Robotics），后者最初出現(xiàn)在阿西莫夫1942年的短篇小說(shuō)《原地打轉(zhuǎn)》（Runaround）。[5]

R1.機(jī)器人不得傷害人類個(gè)體，或者目睹人類個(gè)體將遭受危險(xiǎn)而袖手旁觀。（A robot may not injure a human being,or,through inaction,allow a human being to come to harm.）

R2.機(jī)器人必須服從人給與它的命令，當(dāng)該命令與第一定律沖突時(shí)例外。(A robot must obey the orders given it by human beings except where such orders would conflict with the First Law.）

R3.機(jī)器人在不違反R1，R2的情況下，要盡可能地保護(hù)自己的生存。（A robot must protect its own existence as long as such protection does not conflict with the First or Second Laws.）[⑥]

在內(nèi)容上，劉紀(jì)璐認(rèn)為，她的CR2原則要優(yōu)于阿西莫夫第一定律，因?yàn)樗试S了更多對(duì)負(fù)面價(jià)值的考慮，又讓機(jī)器人在權(quán)衡可允許的行動(dòng)范圍時(shí)更加靈活。同時(shí)，它也要優(yōu)于康德原則或功利主義原則，因?yàn)樗谌寮业摹柏?fù)面形式的金律”，其作用是禁止做出錯(cuò)誤行動(dòng)，而不是靠主觀意志原則去采取自以為是的行動(dòng)。在可預(yù)見(jiàn)的將來(lái)，在我們可能會(huì)將主動(dòng)權(quán)交給人工智能的情境中，這一原則可以保護(hù)我們避免受到因人工智能考慮到其行動(dòng)將帶來(lái)更大的利益而有意去犧牲人類所帶來(lái)的傷害。[6](39)

可以看到，雖然劉紀(jì)璐不放心讓人工智能靠主觀意志原則去采取自以為是的行動(dòng)，但仍然給了機(jī)器人在可允許的范圍內(nèi)做出權(quán)衡的行動(dòng)自由。她指望，通過(guò)CR2這個(gè)原則就能禁止人工智能做出錯(cuò)誤的行動(dòng)，比如，人工智能受功利主義原則支配，考慮到利益的最大化，做出有意犧牲人類的行動(dòng)。

然而，對(duì)照博斯特羅姆的人工智能“工具性價(jià)值”理論，我們就會(huì)知道，劉紀(jì)璐顯然不了解人工智能“資源獲取”動(dòng)機(jī)的存在。盡管她為機(jī)器人設(shè)置的最終目標(biāo)不是一個(gè)特定的數(shù)值，而是兩個(gè)數(shù)值之間的集合，但正如回形針那個(gè)例子中的3）的情況，依然無(wú)法避免“基礎(chǔ)設(shè)施過(guò)量”的惡性后果。

其實(shí)，劉紀(jì)璐最看重的是她的CR1原則，所以她把它放在第一要位。在她看來(lái)，這條律令的作用在于建立了明確的分工體制：提供健康服務(wù)的機(jī)器人應(yīng)專門(mén)終于提供健康服務(wù)的角色，而不是去判斷病人的生命值不值得救，或者判斷是否要幫助病人實(shí)現(xiàn)安樂(lè)死的愿望。無(wú)人自動(dòng)駕駛汽車應(yīng)履行保護(hù)乘客安全的職責(zé)，而不應(yīng)該選擇自動(dòng)撞樹(shù)、犧牲乘客以避免沖向一輛校車而發(fā)生災(zāi)難性的悲劇。這樣的決定超出了各個(gè)人工智能被設(shè)計(jì)的角色。[6](34)

劉紀(jì)璐所說(shuō)的分工，準(zhǔn)確地說(shuō)，是界定職權(quán)范圍[⑦]。確立了各自的職權(quán)范圍，進(jìn)而嚴(yán)格恪守本職，不越界、不越權(quán)，劉紀(jì)璐把這理解為《論語(yǔ)》所說(shuō)的“忠”?！墩撜Z(yǔ)》當(dāng)中的“忠”是否就是這樣的含義，還可以討論。[⑧]單就人工智能的特性而言，劉紀(jì)璐的“分工”能否保證人工智能就能如她所愿的忠于自己的角色，要打一個(gè)很大的問(wèn)號(hào)。道理很簡(jiǎn)單，正如博斯特羅姆告訴我們的那樣，由于存在“變化無(wú)?！?、“異常完成任務(wù)方式”等情況，就算你指派給人工智能是多么具體的工作，給它的最終目標(biāo)多么有限，你也無(wú)法保證它“安分守己”、不出岔子。

根據(jù)劉紀(jì)璐的規(guī)劃，我們可以按照分配給儒家道德機(jī)器人的角色來(lái)為其設(shè)計(jì)具體的工作，比如，為老年人提供幫助，為病人提供保健服務(wù)，為游客提供行導(dǎo)服務(wù)，為汽車提供安全導(dǎo)航，等等。它的首要職責(zé)是忠于角色。因此，它在特定情境中所做的其他任何決定都不能違反其職責(zé)。[6](39)

然而，除非這里所說(shuō)的機(jī)器人是一個(gè)類似普通軟件的“工具性人工智能”（tool-AI），否則，只要涉及到通用智能（AGI），更不用說(shuō)超級(jí)智能，都會(huì)在執(zhí)行任務(wù)過(guò)程中表現(xiàn)自己的“偏好”，從而造成“惡性失敗”。即便是類似普通軟件的“工具性人工智能”，要很好地完成上述的助老、保健、行導(dǎo)、導(dǎo)航等任務(wù)，它就不可避免地要具備學(xué)習(xí)、推理、做計(jì)劃的能力，也就是說(shuō)，這就要求它具備通用智能。如果軟件用來(lái)尋找解決方案的方法足夠復(fù)雜，這些方法可能就會(huì)幫助軟件用一種智能的方式尋找答案。在這種情況下，運(yùn)行這個(gè)軟件的機(jī)器就會(huì)開(kāi)始看起來(lái)不像是一個(gè)工具，而更像是一個(gè)行動(dòng)主體。當(dāng)軟件的認(rèn)知能力達(dá)到足夠高的水平，就會(huì)產(chǎn)生另類的“有創(chuàng)意的”方案。而當(dāng)軟件按照這樣的方案開(kāi)始行動(dòng)時(shí)，就可能引發(fā)滅頂之災(zāi)。[2](153)

總之，麻煩不會(huì)因?yàn)槲覀儗⑷斯ぶ悄芄潭ㄔ诰唧w的工作崗位上而減少。這里有一個(gè)內(nèi)在的悖論：如果想人工智能不“自作主張”、不“闖禍”，那就要把它限制在機(jī)械、“傻瓜”的程度，換句話說(shuō)，就是很不“智能”。如果想人工智能能夠自己尋找解決問(wèn)題的最佳答案，那人工智能所擁有的智能就是越高越好，而具有超級(jí)智能特征的搜索過(guò)程找到的解決方案可能不僅是意料之外的，而且是極度違背設(shè)計(jì)者意圖的，這極可能導(dǎo)致“異常完成任務(wù)方式”、“基礎(chǔ)設(shè)施過(guò)量”等“惡性失敗”。

為了防止人工智能“擅作主張”而帶來(lái)人所不愿的后果，劉紀(jì)璐規(guī)定了寧可袖手旁觀也不采取必要行動(dòng)的原則。她一再?gòu)?qiáng)調(diào)，讓人工智能袖手旁觀要好過(guò)它自發(fā)采取行動(dòng)：“在標(biāo)準(zhǔn)版電車難題（引者按：這個(gè)難題是討論，究竟是犧牲一個(gè)人去救另五個(gè)人，還是不犧牲這個(gè)人而聽(tīng)?wèi){那五人死去）中，依照儒家倫理律令行事的機(jī)器人，除非是電車司機(jī)或鐵道管理員這類特殊角色，是不會(huì)拉動(dòng)操作桿的”，“在不久的將來(lái)，當(dāng)我們的社會(huì)存在可自我管制、自主行動(dòng)的人工道德主體時(shí)，當(dāng)不論它是否采取行動(dòng)都會(huì)導(dǎo)致對(duì)人的傷害和帶來(lái)我們不愿看到的后果時(shí)，我們寧可它選擇袖手旁觀，而不是采取行動(dòng)?！盵6](38)

然而，這種“不作為原則”，恐怕很難為儒家接受。翻開(kāi)中國(guó)歷史，我們可以看到那么多涉及選擇的忠孝節(jié)義故事，它向我們表明：在危急關(guān)頭，儒家從來(lái)都不是“不作不為”，而是勇于擔(dān)當(dāng)、果于抉擇。人工智能的機(jī)器人本身沒(méi)有人類那樣的情感，但既然號(hào)稱“儒家機(jī)器人”，就不能因?yàn)檫x擇困難而將儒家的“仁義”完全擱下。否則，究竟在何種意義上，這個(gè)機(jī)器人還可以被視作“儒家”？

三

如前所說(shuō)，對(duì)于劉紀(jì)璐的“儒家機(jī)器人倫理”，筆者不能同意的是她將“忠于角色”原則放在首位。在筆者看來(lái)，如果嚴(yán)格執(zhí)行這個(gè)原則，一個(gè)很可能的直接后果就是“道德冷漠”。在本可以救五個(gè)人的情況下，卻讓五個(gè)人去死，這在道德上是何等嚴(yán)重的錯(cuò)誤。

進(jìn)一步說(shuō)，如果“忠于角色”高于“恕道”與“仁道”，那么，一個(gè)像阿道夫·艾希曼（Adolf Eichmann，1906-1962）那樣的納粹軍官就不應(yīng)該被送上絞刑架；一個(gè)像辛德勒（Oskar Schindler，1908-1974）那樣救了1000多名猶太人的德國(guó)工廠主就完全是多管閑事，不值得被人銘記。

然而，“忠于職守”不能為良心缺席提供辯護(hù)。對(duì)于儒家，基于“仁心”或良知而做出的道德行動(dòng)永遠(yuǎn)受到鼓勵(lì)，就像看到孺子將入于井，沒(méi)有哪個(gè)儒家首先會(huì)想到自己的職位是否與此相關(guān)，都是毫不猶豫地沖過(guò)去救人。

當(dāng)然，筆者并不認(rèn)為劉紀(jì)璐本意在提倡一種“道德冷漠”，筆者也不相信劉紀(jì)璐會(huì)同意艾希曼可以用“忠于角色”為自己辯護(hù)。

但是，既然可能存在這樣一些歧異的理解或詮釋，劉紀(jì)璐推薦的這個(gè)道德原則顯然就不適合作為儒家人工智能倫理的基礎(chǔ)。那么，究竟何種美德或價(jià)值加載給人工智能才更為合理？是“仁”還是“恕”抑或其他？

對(duì)此，筆者的回答是，沒(méi)有那樣一種合適的德目。筆者之所以有如此看法，在很大程度上，是因?yàn)榻邮芰瞬┧固亓_姆有關(guān)“間接規(guī)范”（indirect normativity）的思想。

筆者相信，不但“忠”這種價(jià)值加載給人工智能，會(huì)出問(wèn)題，植入其他任何價(jià)值同樣前景堪憂。歸根結(jié)底，正如博斯特羅姆所言：

我們應(yīng)該植入哪種價(jià)值觀呢？這個(gè)選擇并非小事。如果超級(jí)智能獲得了決定性戰(zhàn)略優(yōu)勢(shì)，我們選擇的價(jià)值觀就會(huì)決定宇宙資源如何被處置。顯然，在我們選擇價(jià)值觀時(shí)不犯錯(cuò)誤至關(guān)重要。但是，如果從實(shí)際出發(fā)，我們?cè)趺茨芟Ｍ谶@種事情上一點(diǎn)錯(cuò)誤都不犯？我們的錯(cuò)誤可能關(guān)乎倫理道德，也可能關(guān)乎對(duì)我們來(lái)說(shuō)什么是好，甚至可能關(guān)乎我們真正想要什么。[2](209-210)

因?yàn)閮r(jià)值觀選擇所關(guān)聯(lián)的后果太過(guò)嚴(yán)重，以至于任何閃失都讓人類無(wú)法承受。所以，博斯特羅姆在這里所作的拷問(wèn)，不應(yīng)被看作一種虛無(wú)主義的懷疑論，而應(yīng)當(dāng)被視為一種值得嘉許的審慎。也許，我們對(duì)自己偏好的價(jià)值確信不疑，但如果客觀地加以看待，就不會(huì)不發(fā)現(xiàn)：沒(méi)有哪個(gè)道德理論能夠獲得多數(shù)哲學(xué)家的認(rèn)同。這個(gè)事實(shí)說(shuō)明，我們很可能是錯(cuò)的。當(dāng)然，其他人對(duì)的概率也不大。另一方面，我們也會(huì)注意到，人的道德信念是變化的，如果有所謂道德進(jìn)步可言，那么，我們就更不應(yīng)該認(rèn)為自己當(dāng)下的道德信念一直正確?；谶@些認(rèn)識(shí)，如果我們一定要在現(xiàn)有的道德理論以及關(guān)于這個(gè)理論的一系列具體主張當(dāng)中為人工智能選擇一個(gè)最終目標(biāo)，那我們無(wú)疑是在進(jìn)行一場(chǎng)豪賭，其勝算幾乎為零。因此，明智的做法是轉(zhuǎn)向間接規(guī)范方法，而不是直接規(guī)定（direct specification）方法。

所謂直接規(guī)定方法，就是試圖通過(guò)明確地設(shè)定一套規(guī)則（rules）或價(jià)值觀（values），來(lái)使一個(gè)自由發(fā)展的超級(jí)智能的行為變得安全而有益。直接規(guī)定方法有兩種版本，一種是基于規(guī)則（rule-based），另一種是后果主義（consequentialist）。然而，無(wú)論哪一種，都無(wú)法避免這樣的困難：我們既不知道人工智能應(yīng)該被何種規(guī)則或價(jià)值所引導(dǎo)（鑒于在道德理論上我們很難統(tǒng)一），即便我們找到了那樣的規(guī)則或價(jià)值，我們也不知道如何將這些規(guī)則或價(jià)值用計(jì)算機(jī)可以理解的代碼呈現(xiàn)[⑨]。[2](139)

所謂間接規(guī)范方法，是指：既然我們不知道我們真正想要什么，什么是符合我們的利益的，什么是道德上正確或理想的，那么，與其基于我們目前的理解（可能是非常錯(cuò)誤的理解）做猜測(cè)，何不將價(jià)值觀選擇所需要的一部分認(rèn)知工作委托給超級(jí)智能呢？[2](210)

這個(gè)方法充分體現(xiàn)了超級(jí)智能時(shí)代的特點(diǎn)。它隱含的前提是：超級(jí)智能比我們更聰明，或者說(shuō)，超級(jí)智能比我們更擅長(zhǎng)計(jì)算、推理。這在人類認(rèn)識(shí)史上無(wú)異于又一次“哥白尼轉(zhuǎn)向”：從人類為人工智能“立法”，到人工智能為人類“立法”。

具體做法是，給種子人工智能一些最終目標(biāo)，這些目標(biāo)的條件足夠抽象，然后，人工智能就按照它的工作方式，對(duì)這些條件展開(kāi)最佳的推測(cè)。間接規(guī)范有很多方案，博斯特羅姆推薦的是由美國(guó)AI研究者尤德科夫斯基（Eliezer Yudkowsky）[⑩]提出的“可被推知的融貫的愿望”（coherent extrapolated volition）（CEV）。其定義如下：

我們的可被推知的融貫的愿望就是我們的這樣一種愿望：我們期望自己知道得更多，思考得更快，比我們希望自己所是的那種人還要好，我們?cè)谝黄鸸餐砷L(zhǎng)。各種推知能夠凝聚而不支離，各種愿望能夠連貫而不抵牾?？傊凑瘴覀兯Ｍ哪菢尤ケ煌浦?，也按照我們所希望的那樣去被詮釋。（Our coherent extrapolated volition is our wish if we knew more,thought faster,were more the people we wished we were,had grown up farther together;where the extrapolation converges rather than diverges,where our wishes cohere rather than interfere;extrapolated as we wish that extrapolated,interpreted as we wish that interpreted.）[7]

博斯特羅姆承認(rèn)，這個(gè)方案類似倫理學(xué)中的“理想觀察者理論”（ideal observer theories)。所謂理想觀察者，是指一個(gè)知曉全部非道德事實(shí)的、具有清晰邏輯的、不偏不倚的、沒(méi)有任何偏見(jiàn)的觀察者。

本質(zhì)上，CEV方案清除了價(jià)值觀描述當(dāng)中所有具體內(nèi)容，只剩下通過(guò)純粹程序性的語(yǔ)言定義的抽象價(jià)值：去做理想條件下我們希望人工智能去做的事。[2](221)

根據(jù)博斯特羅姆的說(shuō)明，CEV方案有這樣幾個(gè)特點(diǎn)：第一，它沒(méi)有規(guī)定具體的、不可更改的道德準(zhǔn)則，因此，它允許道德進(jìn)一步發(fā)展；第二，它沒(méi)有賦予程序員更多的權(quán)力，而是把全人類的意愿都盡可能包容進(jìn)來(lái)；第三，它將未來(lái)交給人類的CEV而不是某一方去決定，因而避免了沖突；第四，它在結(jié)構(gòu)上允許各種結(jié)果產(chǎn)生。[2](216-217)

在筆者看來(lái)，無(wú)論是尤德科夫斯基還是博斯特羅姆，他們?yōu)镃EV所做的種種規(guī)定，在方法上屬于馮友蘭所說(shuō)的“負(fù)的方法”[8]，即：避免從正面立論，不說(shuō)它“是”什么，而說(shuō)它“不是”什么，以此，期望它能成為適用所有人的一個(gè)形式性規(guī)則。在某種意義上，他們?cè)噲D提供的是一面鏡子，鏡子本身沒(méi)有任何內(nèi)容，每個(gè)照鏡子的人從中看到的就是自己的面容（理想的面容）。

這樣的意思，其實(shí)，用儒家經(jīng)典《中庸》第十三章的一句話“以人治人，改而止”來(lái)概括，可能更簡(jiǎn)明易懂。

所謂“以人治人”，是說(shuō)不要從第一人稱立場(chǎng)去對(duì)待他人，而應(yīng)該試著從對(duì)方自身的立場(chǎng)去著想，既不是“己之所欲，施之于人”，也不是“己所不欲，勿施于人”，后者只是前者的反面形式，究其實(shí)質(zhì)，仍然都是第一人稱立場(chǎng)。對(duì)于人工智能，對(duì)于機(jī)器人，適宜的倫理原則，不是讓它聽(tīng)命于人類，不是處處控制它，而是采用引導(dǎo)式的、啟發(fā)式的，像間接規(guī)范方法所強(qiáng)調(diào)的那樣，讓人工智能發(fā)揮它在認(rèn)知上的優(yōu)勢(shì)，告訴人類什么是最佳的選擇，什么才是他最想要的。

讓人工智能發(fā)揮它的認(rèn)知優(yōu)勢(shì)，這符合“以其人之道還治其人之身”的原則。另一方面，人工智能通過(guò)推理告訴人類最佳選擇，這個(gè)所謂最佳選擇，對(duì)人類來(lái)說(shuō)，應(yīng)該是最符合他的本性、最符合他的愿望、他的利益的，所以，對(duì)人類而言，就不會(huì)發(fā)生按照某個(gè)外在規(guī)范去行事的困難。這同樣是一種“以其人（人類）之道，還治其人（人類）之身”。[11]“改而止”，是說(shuō)，如果人類對(duì)照人工智能告訴他的目標(biāo)或方案加以改進(jìn)，人工智能就算達(dá)到了目的，就可以結(jié)束這項(xiàng)任務(wù)。這就實(shí)現(xiàn)了人工智能與人之間的良性互動(dòng)。

這也許就是儒家對(duì)當(dāng)代人工智能倫理所能做的一個(gè)貢獻(xiàn)。它并沒(méi)有輸出儒家特定的價(jià)值，而毋寧是告訴人們一條更根本性的智慧：以我治人，人必反之；以人治人，人樂(lè)從之。與其汲汲于擔(dān)心人工智能、控制人工智能，不如讓人工智能為人作主，從而全心全意為人。到最后，其實(shí)亦無(wú)人、機(jī)之分。[12]

注釋

尼克·博斯特羅姆（Nick Bostrom），1973年出生于瑞典，從倫敦經(jīng)濟(jì)學(xué)院（LSE）取得博士學(xué)位，以其有關(guān)生存危機(jī)、人擇原理、人類提升倫理、超級(jí)智能風(fēng)險(xiǎn)和反轉(zhuǎn)實(shí)驗(yàn)等方面的研究而知名。2011年，他創(chuàng)建了牛津馬丁未來(lái)技術(shù)影響計(jì)劃，是牛津大學(xué)人類未來(lái)研究所（FHI）的創(chuàng)所所長(zhǎng)。2009年和2015年，他被《外交政策》（Foreign Policy）列入全球思想家100強(qiáng)。資料來(lái)源：維基百科，https://en.wikipedia.org/wiki/Nick_Bostrom.

本書(shū)有中譯：《超級(jí)智能：路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》（北京：中信出版社，2015年）。遺憾的是，中譯刪去了原文的注釋、參考文獻(xiàn)和索引。本文在引用原文時(shí)，參考了這個(gè)譯本，但對(duì)一些重要術(shù)語(yǔ)都重新做了翻譯。

此即“Research Priorities for Robust and Beneficial Artificial Intelligence:An Open Letter”,https://futureoflife.org/data/documents/research_priorities.pdf.

這是筆者提出的一個(gè)概念，以刻畫(huà)價(jià)值觀（value）加載之前人工智能的狀態(tài)。這里的“價(jià)值觀”主要是指人類的。

Perverse，意為“不合情理的”。Instantiation，意為“實(shí)例化”?！冻?jí)智能》的譯者將其譯為“反常目標(biāo)實(shí)現(xiàn)方式”。依據(jù)文意，筆者認(rèn)為，譯為“異常完成任務(wù)方式”可能更準(zhǔn)確。

阿西莫夫后來(lái)又加了一條新定律：R0.機(jī)器人不得傷害人類整體，或因不作為使人類整體受到傷害。不過(guò)，1981年，阿西莫夫在Compute!里說(shuō)：“…有人問(wèn)我，是不是覺(jué)得我的三定律真的可以用來(lái)規(guī)范機(jī)器人的行為——等到機(jī)器人的靈活自主程度足以在不同的行為方式忠選擇一種的時(shí)候。我的答案是：是的，三定律是理性人類對(duì)待機(jī)器人（或者任何別的東西）的唯一方式?！保℅eorge Dvorsky：《為什么阿西莫夫的機(jī)器人三定律救不了我們》，https://www.guokr.com/article/438325/）

中文當(dāng)中，“能力”與“權(quán)力”這兩個(gè)詞，在有些情況下可以混用。但是，如果說(shuō)到人工智能的能力，它顯然不同于它對(duì)事情的決定權(quán)，后者更多地指一種合法性。合法性需要從外界賦予，而能力則是自有的。就此而言，當(dāng)劉紀(jì)璐說(shuō)“我們不能給與人工智能如神一樣的超人能力，擁有對(duì)任何人與事的所有決定權(quán)”（34頁(yè)），她實(shí)際上混淆了“能力”一詞的用法。也許，她是想對(duì)人工智能的能力做出限制，但對(duì)于人工智能已經(jīng)擁有的強(qiáng)大能力，人類頂多只能加以限制，而不能說(shuō)“給與”?！敖o與能力”這樣的用法可能還反映，在她心目中，人工智能在智能獲得上是完全依賴于人類的，人類既可以塑造人工智能，賦予它各種能力，如果愿意，也可以收回這些能力。不得不說(shuō)，對(duì)人工智能的這種認(rèn)識(shí)還停留在弱人工智能階段，還不曉得強(qiáng)人工智能或超級(jí)人工智能的厲害。

對(duì)“忠”的這種理解，劉紀(jì)璐主要是受到《左傳·昭公二十年》所記孔子言“守道不如守官”以及《論語(yǔ)·泰伯》所記孔子言“不在其位，不謀其政”的影響。對(duì)自己職責(zé)的盡心盡力固然是“忠”的一種表現(xiàn)，但“忠”的重點(diǎn)在于“盡心盡力”，而不在于“不越其位”。

人工智能的程序員的工作方式是編程，即：把目標(biāo)寫(xiě)成效用函數(shù)。但是對(duì)人類的價(jià)值觀進(jìn)行編程，非常困難。以“幸?！睘槔?。計(jì)算機(jī)語(yǔ)言并不包含這樣的詞，所以，如果要用這樣的詞，就必須對(duì)其進(jìn)行定義。我們不能用其他高等級(jí)的人類概念對(duì)其定義，比如說(shuō)，把它定義成“幸福就是我們?nèi)祟愄煨灾羞z傳下來(lái)的一種潛在的愉悅感”，類似的哲學(xué)闡釋也不行。這個(gè)定義必須先建立起在人工智能編程語(yǔ)言中的詞，然后建立其原始數(shù)據(jù)，比如數(shù)學(xué)算子和指向存儲(chǔ)著內(nèi)容的獨(dú)立內(nèi)存寄存器的地址。我們看起來(lái)很簡(jiǎn)單的價(jià)值觀和愿望，事實(shí)上包含了極大的復(fù)雜性，程序員要把它變成詳盡的效用函數(shù)，其難度超乎想象。就像視覺(jué)，人類的一個(gè)最簡(jiǎn)單的視覺(jué)任務(wù)，也需要巨大的計(jì)算量。

尤德科夫斯基，1979年9月11日出生于美國(guó)芝加哥。美國(guó)人工智能研究者、作家。以“友好的人工智能”（friendly artificial intelligence）觀念而廣為人知。他是建立在加州伯克利的非盈利私人研究機(jī)構(gòu)“機(jī)器智能研究所”（Machine Intelligence Research Institute）（MIRI）的聯(lián)合創(chuàng)始人與研究員。他有關(guān)逃離智能大爆炸（intelligence explosion）結(jié)局的著作影響了博斯特羅姆的《超級(jí)智能》一書(shū)。他是自學(xué)成才者，沒(méi)有進(jìn)過(guò)高中與學(xué)院。資料來(lái)源：維基百科，https://en.wikipedia.org/wiki/Eliezer_Yudkowsky.

我們對(duì)“以人治人”的解釋主要采用了朱熹的理解。朱熹說(shuō)：若以人治人，則所以為人之道，各在當(dāng)人之身，初無(wú)彼此之別。故君子之治人也，即以其人之道，還治其人之身。其人能改，即止不治。蓋責(zé)之以其所能知能行，非欲其遠(yuǎn)人以為道也。張子所謂“以眾人望人則易從”是也。（朱熹：《中庸章句》，《四書(shū)章句集注》，北京：中華書(shū)局，1986年，23頁(yè)）

也許有人會(huì)說(shuō)，我們這種說(shuō)法完全是一種哲學(xué)的思辨，但實(shí)際上，人-機(jī)融合本身也是人工智能技術(shù)的發(fā)展的一個(gè)方向。根據(jù)阿西莫夫同名小說(shuō)改編的電影《我，機(jī)器人》（2004，美國(guó)）中，羅德?9?9布魯克斯說(shuō)，機(jī)器人統(tǒng)治永遠(yuǎn)不可能發(fā)生。因?yàn)樗兇獾臋C(jī)器人）無(wú)法取代我們（人類）中的任何一個(gè)。他的解釋不僅是說(shuō)這種觀點(diǎn)是空話，還提到了借由技術(shù)植入和改進(jìn)，人類和機(jī)器之間在不斷地融合。當(dāng)機(jī)器足夠先進(jìn)時(shí)，那些害怕叛亂的人們擔(dān)憂機(jī)器的智能水平達(dá)到了一定的高度會(huì)想要統(tǒng)領(lǐng)人類，而在那時(shí)，人們將早已習(xí)慣帶著他們大腦里、身體中的機(jī)器到處忙活了，也就是說(shuō)，未來(lái)并非是人機(jī)分離的時(shí)代，機(jī)器也不會(huì)謀劃著滅亡人類。相反，布魯克斯認(rèn)為，未來(lái)可能是人工智能與人類互利共生的時(shí)代。（辛格：《機(jī)器人戰(zhàn)爭(zhēng)：21世紀(jì)機(jī)器人技術(shù)革命與反思》，389頁(yè)）

[參考文獻(xiàn)]

[1]翠鳥(niǎo)資本.再見(jiàn)霍金！對(duì)于人工智能，這位偉人給世人留下這樣的忠告[EB/OL].https://www.sohu.com/a/225555341_99993617，2018-03-14 18:48.

[2]Bostrom,Nick,Superintelligence：Paths,Dangers,Strategies，Oxford:Oxford University Press,2014.

[3]庫(kù)茲韋爾.奇點(diǎn)臨近[M].北京：機(jī)械工業(yè)出版社，2011:252.

[4]辛格.機(jī)器人戰(zhàn)爭(zhēng)：21世紀(jì)機(jī)器人技術(shù)革命與反思[M].武漢：華中科技大學(xué)出版社，2016:389.

[5]Three Laws of Robotics(Rules of Robotics)[EB/OL].http://www.technovelgy.com/ct/content.asp?Bnum=394.

[6]劉紀(jì)璐.儒家機(jī)器人倫理[J].思想與文化.2018(1).

[7]Yudkowsky,Eliezer,Coherent Extrapolated Volition.Machine Intelligence Research Institute,San Francisco,CA,2004:5-8.

[8]馮友蘭.中國(guó)哲學(xué)簡(jiǎn)史[M].鄭州:河南人民出版社，2001:274.

注釋：

[①]尼克·博斯特羅姆（Nick Bostrom），1973年出生于瑞典，從倫敦經(jīng)濟(jì)學(xué)院（LSE）取得博士學(xué)位，以其有關(guān)生存危機(jī)、人擇原理、人類提升倫理、超級(jí)智能風(fēng)險(xiǎn)和反轉(zhuǎn)實(shí)驗(yàn)等方面的研究而知名。2011年，他創(chuàng)建了牛津馬丁未來(lái)技術(shù)影響計(jì)劃，是牛津大學(xué)人類未來(lái)研究所（FHI）的創(chuàng)所所長(zhǎng)。2009年和2015年，他被《外交政策》（Foreign Policy）列入全球思想家100強(qiáng)。資料來(lái)源：維基百科，https://en.wikipedia.org/wiki/Nick_Bostrom.

[②]本書(shū)有中譯：《超級(jí)智能：路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》（北京：中信出版社，2015年）。遺憾的是，中譯刪去了原文的注釋、參考文獻(xiàn)和索引。本文在引用原文時(shí)，參考了這個(gè)譯本，但對(duì)一些重要術(shù)語(yǔ)都重新做了翻譯。

[③]此即“Research Priorities for Robust and Beneficial Artificial Intelligence:An Open Letter”,https://futureoflife.org/data/documents/research_priorities.pdf.

[④]這是筆者提出的一個(gè)概念，以刻畫(huà)價(jià)值觀（value）加載之前人工智能的狀態(tài)。這里的“價(jià)值觀”主要是指人類的。

[⑤]Perverse，意為“不合情理的”。Instantiation，意為“實(shí)例化”?！冻?jí)智能》的譯者將其譯為“反常目標(biāo)實(shí)現(xiàn)方式”。依據(jù)文意，筆者認(rèn)為，譯為“異常完成任務(wù)方式”可能更準(zhǔn)確。

[⑥]阿西莫夫后來(lái)又加了一條新定律：R0.機(jī)器人不得傷害人類整體，或因不作為使人類整體受到傷害。不過(guò)，1981年，阿西莫夫在Compute!里說(shuō)：“…有人問(wèn)我，是不是覺(jué)得我的三定律真的可以用來(lái)規(guī)范機(jī)器人的行為——等到機(jī)器人的靈活自主程度足以在不同的行為方式忠選擇一種的時(shí)候。我的答案是：是的，三定律是理性人類對(duì)待機(jī)器人（或者任何別的東西）的唯一方式?！保℅eorge Dvorsky：《為什么阿西莫夫的機(jī)器人三定律救不了我們》，https://www.guokr.com/article/438325/）

[⑦]中文當(dāng)中，“能力”與“權(quán)力”這兩個(gè)詞，在有些情況下可以混用。但是，如果說(shuō)到人工智能的能力，它顯然不同于它對(duì)事情的決定權(quán)，后者更多地指一種合法性。合法性需要從外界賦予，而能力則是自有的。就此而言，當(dāng)劉紀(jì)璐說(shuō)“我們不能給與人工智能如神一樣的超人能力，擁有對(duì)任何人與事的所有決定權(quán)”（34頁(yè)），她實(shí)際上混淆了“能力”一詞的用法。也許，她是想對(duì)人工智能的能力做出限制，但對(duì)于人工智能已經(jīng)擁有的強(qiáng)大能力，人類頂多只能加以限制，而不能說(shuō)“給與”。“給與能力”這樣的用法可能還反映，在她心目中，人工智能在智能獲得上是完全依賴于人類的，人類既可以塑造人工智能，賦予它各種能力，如果愿意，也可以收回這些能力。不得不說(shuō)，對(duì)人工智能的這種認(rèn)識(shí)還停留在弱人工智能階段，還不曉得強(qiáng)人工智能或超級(jí)人工智能的厲害。

[⑧]對(duì)“忠”的這種理解，劉紀(jì)璐主要是受到《左傳·昭公二十年》所記孔子言“守道不如守官”以及《論語(yǔ)·泰伯》所記孔子言“不在其位，不謀其政”的影響。對(duì)自己職責(zé)的盡心盡力固然是“忠”的一種表現(xiàn)，但“忠”的重點(diǎn)在于“盡心盡力”，而不在于“不越其位”。

[⑨]人工智能的程序員的工作方式是編程，即：把目標(biāo)寫(xiě)成效用函數(shù)。但是對(duì)人類的價(jià)值觀進(jìn)行編程，非常困難。以“幸?！睘槔Ｓ?jì)算機(jī)語(yǔ)言并不包含這樣的詞，所以，如果要用這樣的詞，就必須對(duì)其進(jìn)行定義。我們不能用其他高等級(jí)的人類概念對(duì)其定義，比如說(shuō)，把它定義成“幸福就是我們?nèi)祟愄煨灾羞z傳下來(lái)的一種潛在的愉悅感”，類似的哲學(xué)闡釋也不行。這個(gè)定義必須先建立起在人工智能編程語(yǔ)言中的詞，然后建立其原始數(shù)據(jù)，比如數(shù)學(xué)算子和指向存儲(chǔ)著內(nèi)容的獨(dú)立內(nèi)存寄存器的地址。我們看起來(lái)很簡(jiǎn)單的價(jià)值觀和愿望，事實(shí)上包含了極大的復(fù)雜性，程序員要把它變成詳盡的效用函數(shù)，其難度超乎想象。就像視覺(jué)，人類的一個(gè)最簡(jiǎn)單的視覺(jué)任務(wù)，也需要巨大的計(jì)算量。

[⑩]尤德科夫斯基，1979年9月11日出生于美國(guó)芝加哥。美國(guó)人工智能研究者、作家。以“友好的人工智能”（friendly artificial intelligence）觀念而廣為人知。他是建立在加州伯克利的非盈利私人研究機(jī)構(gòu)“機(jī)器智能研究所”（Machine Intelligence Research Institute）（MIRI）的聯(lián)合創(chuàng)始人與研究員。他有關(guān)逃離智能大爆炸（intelligence explosion）結(jié)局的著作影響了博斯特羅姆的《超級(jí)智能》一書(shū)。他是自學(xué)成才者，沒(méi)有進(jìn)過(guò)高中與學(xué)院。資料來(lái)源：維基百科，https://en.wikipedia.org/wiki/Eliezer_Yudkowsky.

[11]我們對(duì)“以人治人”的解釋主要采用了朱熹的理解。朱熹說(shuō)：若以人治人，則所以為人之道，各在當(dāng)人之身，初無(wú)彼此之別。故君子之治人也，即以其人之道，還治其人之身。其人能改，即止不治。蓋責(zé)之以其所能知能行，非欲其遠(yuǎn)人以為道也。張子所謂“以眾人望人則易從”是也。（朱熹：《中庸章句》，《四書(shū)章句集注》，北京：中華書(shū)局，1986年，23頁(yè)）

[12]也許有人會(huì)說(shuō)，我們這種說(shuō)法完全是一種哲學(xué)的思辨，但實(shí)際上，人-機(jī)融合本身也是人工智能技術(shù)的發(fā)展的一個(gè)方向。根據(jù)阿西莫夫同名小說(shuō)改編的電影《我，機(jī)器人》（2004，美國(guó)）中，羅德?9?9布魯克斯說(shuō)，機(jī)器人統(tǒng)治永遠(yuǎn)不可能發(fā)生。因?yàn)樗兇獾臋C(jī)器人）無(wú)法取代我們（人類）中的任何一個(gè)。他的解釋不僅是說(shuō)這種觀點(diǎn)是空話，還提到了借由技術(shù)植入和改進(jìn)，人類和機(jī)器之間在不斷地融合。當(dāng)機(jī)器足夠先進(jìn)時(shí)，那些害怕叛亂的人們擔(dān)憂機(jī)器的智能水平達(dá)到了一定的高度會(huì)想要統(tǒng)領(lǐng)人類，而在那時(shí)，人們將早已習(xí)慣帶著他們大腦里、身體中的機(jī)器到處忙活了，也就是說(shuō)，未來(lái)并非是人機(jī)分離的時(shí)代，機(jī)器也不會(huì)謀劃著滅亡人類。相反，布魯克斯認(rèn)為，未來(lái)可能是人工智能與人類互利共生的時(shí)代。（辛格：《機(jī)器人戰(zhàn)爭(zhēng)：21世紀(jì)機(jī)器人技術(shù)革命與反思》，389頁(yè)）

責(zé)任編輯：近復(fù)

分享到：新浪微博微信 QQ空間更多

【上一篇】【丁紀(jì)】鵝湖詩(shī)與四句教

【下一篇】【曾亦】“親盡宜毀”與“宗不復(fù)毀” ——論漢儒關(guān)于宗廟迭毀爭(zhēng)論中的親親與尊尊問(wèn)題

作者文集更多

微信公眾號(hào)

儒家網(wǎng)

青春儒學(xué)

民間儒行

圖書(shū)每滿100減50（點(diǎn)擊購(gòu)買）

微信公眾號(hào)

儒家網(wǎng)

青春儒學(xué)

民間儒行

圖書(shū)每滿100減50（點(diǎn)擊購(gòu)買）

7799精品视频天天在看,日韩一区二区三区灯红酒绿,国产xxxxx在线观看,在线911精品亚洲

<rp id="00a9v"></rp>

<rp id="00a9v"></rp>

<track id="00a9v"><dl id="00a9v"><delect id="00a9v"></delect></dl></track>

<noscript id="00a9v"><dl id="00a9v"></dl></noscript>

尤物福利在线观看永久视频日本v片视频一区二区三区在线观看午夜看看AV在线欧美日韩呦女一区二区三区亚洲区日韩精品中文字幕