精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業(yè)資訊

觀點:從七個方面看人工智能的失敗

從檢測癌癥到?jīng)Q定誰接受崗位面試,AI系統(tǒng)在很多問題上都能做得比人類更快、更準確、更可靠、更公正。不過AI也經(jīng)歷了無數(shù)次失敗,有時甚至是致命的失敗。AI的日益普及也意味著失敗不僅會影響個人,還會影響數(shù)百萬人。

AI界正在越來越多地記錄這些失敗,以監(jiān)控它們可能帶來的風險。“幫助用戶了解這些系統(tǒng)的工作原理及其意義的信息往往很少。”AI、算法和自動化事件與爭議存儲庫的創(chuàng)始人查理•鮑納爾(Charlie Pownall)說,“我認為這直接影響了人們對這些系統(tǒng)的信任和信心。導致各組織機構(gòu)不愿意深入了解AI事件或爭議中到底發(fā)生了什么的原因可能有很多,而不僅僅是潛在的法律風險,但如果從可信的角度來看,這樣做對他們最有利。”

部分問題在于,驅(qū)動很多AI系統(tǒng)的神經(jīng)網(wǎng)絡(luò)技術(shù)可能會以某種方式崩潰,這對研究人員來說仍然是個謎。加州大學伯克利分校的計算機科學家丹•亨德里克斯(Dan Hendrycks)說:“AI擅長解決哪些問題尚不可預(yù)知,因為我們還不太了解智能本身。”

以下是7個AI失敗的例子,以及它們揭示了當前AI的哪些弱點。科學家們正在討論解決其中一些問題的可能方法;其他問題目前尚無法解釋,或者從哲學角度講,可能完全缺乏任何結(jié)論性解決方案。

01. 脆弱性

拍一張校車的照片,然后翻轉(zhuǎn)照片使其側(cè)面著地,就像在現(xiàn)實世界發(fā)生事故時那樣。2018年的一項研究發(fā)現(xiàn),在通常能夠正確識別正面朝上的校車的最先進的AI系統(tǒng)中,平均有97%的系統(tǒng)無法識別出旋轉(zhuǎn)后的校車。

阿拉巴馬州奧本大學的計算機科學家阮安(Anh Nguyen,音)說:“它們會信心十足地說校車是一輛掃雪車。”他說,AI無法完成“甚至我3歲的兒子也能完成的”心理旋轉(zhuǎn)任務(wù)。

這種失敗就是一個脆弱性例子。AI通常“只能識別它以前見過的模式”,阮安說。“如果向它展示一種新模式,它就很容易上當。”

惱人的AI脆弱性案例很多。將貼紙貼在停車標志上會使AI誤讀。改變圖像上的一個像素就能讓AI將馬認作青蛙。99.99%的神經(jīng)網(wǎng)絡(luò)會確信多色靜電是一張獅子的圖像。以肉眼無法察覺的方式修改醫(yī)學圖像后,AI系統(tǒng)會100%地誤診為癌癥。諸如此類。

亨德里克斯說,有一種方法可能會讓AI更強大地應(yīng)對此類失敗,那就是讓它們盡可能多地暴露在令人困惑的“對抗性”例子中。然而,它們?nèi)钥赡茉诤币姷?ldquo;黑天鵝”事件中失敗。“新冠病毒或經(jīng)濟衰退這樣的黑天鵝問題,即使是人類也很難解決,這可能不是ML特有的問題。”他指出。

02. 固有偏見

AI越來越多地被用于支持重大決策,例如誰能獲得貸款、刑期長短以及誰先獲得醫(yī)療衛(wèi)生服務(wù)。人們希望AI能夠比人類更加公正地做出決策,但很多研究發(fā)現(xiàn),如果訓練這些AI所使用的數(shù)據(jù)存在偏見,那么可能會導致集體自動歧視,給社會帶來巨大風險。

例如,2019年,科學家發(fā)現(xiàn)美國在全國部署的一個醫(yī)療算法中存在種族偏見,影響了數(shù)百萬美國人。該AI的設(shè)計初衷是確定哪些患者能享受重癥監(jiān)護計劃帶來的益處,但它卻常規(guī)地將更健康的白人患者納入此類計劃,讓他們排在了病情更嚴重的黑人患者前面。

加州大學伯克利分校的研究人員齊亞德•奧博邁爾(Ziad Obermeyer)是一名醫(yī)生,他和同事發(fā)現(xiàn),該算法錯誤地認為醫(yī)療費用高的人是病得最重、最需要照顧的人。然而,由于系統(tǒng)的種族歧視,“黑人患者在需要醫(yī)療衛(wèi)生服務(wù)時更不太可能得到服務(wù),因此也不太可能產(chǎn)生費用,”他解釋道。

在與軟件開發(fā)人員合作后,奧博邁爾及其同事幫助設(shè)計了一種新的算法,通過分析其他變量,減少了84%的偏見。他說:“還需要做更多工作,但要打敗偏見并非不可能。”他們最近撰寫了一份指南,概述了政府、企業(yè)和其他組織可以實施的一些基本步驟,以發(fā)現(xiàn)和防止其當前和未來使用的軟件中存在偏見。相關(guān)步驟囊括:識別其使用的所有算法、了解該軟件的理想目標及其在實現(xiàn)目標方面的表現(xiàn)、必要時對AI進行再訓練,以及建立一個高級監(jiān)督機構(gòu)。

03. 災(zāi)難性遺忘

深度偽造(deepfake)是指人工生成高度真實的虛假圖像和視頻(通常有關(guān)名人、政客和其他公眾人物),這種情況在互聯(lián)網(wǎng)和社交媒體上越來越普遍,它們能夠欺騙性地描繪人們說了或做了并未真正發(fā)生過的事情,從而造成巨大傷害。為了開發(fā)出能夠識別深度偽造的AI,韓國成均館大學的計算機科學家沙羅茲•塔里克(Shahroz Tariq)及其同事創(chuàng)建了一個網(wǎng)站,人們可以上傳圖像來檢查圖像的真實性。

起初,研究人員訓練了他們的神經(jīng)網(wǎng)絡(luò)來識別一種深度偽造。然而,幾個月后又出現(xiàn)了很多新型的深度偽造,在他們訓練AI來識別這些新型深度偽造時,AI很快就忘記了如何識別舊的深度偽造。

這是一個災(zāi)難性遺忘的例子,AI可能會在學習新信息后突然完全忘記以前知道的信息,基本上是用新知識覆蓋過去的知識。“人工神經(jīng)網(wǎng)絡(luò)的記憶力很差。”塔里克說。

AI研究人員正在尋找各種策略來防止災(zāi)難性遺忘,這樣神經(jīng)網(wǎng)絡(luò)就可以像人類一樣,毫不費力地持續(xù)學習。有一種簡單的技術(shù),那就是為每一個新任務(wù)創(chuàng)建一個專門的神經(jīng)網(wǎng)絡(luò),例如,把貓與狗或蘋果與橘子區(qū)分開來,“但這顯然是不可擴展的,因為網(wǎng)絡(luò)的數(shù)量會隨著任務(wù)的數(shù)量而線性增加。”英格蘭牛津大學的ML研究員薩姆•凱斯勒(Sam Kessler)說。

在訓練其AI識別新型深度偽造時,塔里克及其同事探索了另一種方法,即向它提供少量關(guān)于它是如何識別舊類型深度偽造的數(shù)據(jù),這樣它就不會忘記如何識別它們了。塔里克說,這實際上就像考試前復(fù)習課本的章節(jié)小結(jié)一樣。

然而,AI也許并不是總能獲得過去的知識,比如,處理醫(yī)療記錄等私人信息時。塔里克及同事希望能制造一種不依賴先前任務(wù)數(shù)據(jù)的AI。他們讓它自己訓練如何發(fā)現(xiàn)新型深度偽造,同時也從另一個AI那里學習如何識別舊類型的深度偽造。他們發(fā)現(xiàn),在識別社交媒體上經(jīng)常分享的低質(zhì)量深度偽造方面,這種“知識精煉”策略的準確率約為87%。

04. 可解釋性

為什么AI會懷疑某個人可能是罪犯或患有癌癥?對這類以及其他高風險預(yù)測的解釋會產(chǎn)生很多法律、醫(yī)學和其他后果。長期以來,AI是如何得出結(jié)論的一直仿佛是一個神秘的黑匣子,很多人都試圖解釋AI的內(nèi)部運作方式。“然而,我最近的研究表明,可解釋性領(lǐng)域有點陷入僵局。”奧本大學的阮安說。

阮安及其同事研究了研究人員為解釋人工智決策(例如,是什么決定了火柴棍的圖像是火柴棍,是火焰還是木棍?)而開發(fā)的7種不同技術(shù)。他們發(fā)現(xiàn)這些方法有很多都“非常不穩(wěn)定”。阮安說:“它們每次都能給你不同的解釋。”

此外,雖然一種歸因方法可能適用于一組神經(jīng)網(wǎng)絡(luò),“但它可能在另一組神經(jīng)網(wǎng)絡(luò)上完全失敗。”阮安補充道。他說,可解釋性的未來可能需要為正確解釋建立數(shù)據(jù)庫。然后,歸因方法可以進入這些知識庫,“并搜索可能解釋決策依據(jù)的事實。”他說。

05. 量化不確定性

2016年,在佛羅里達州北部,一輛開啟了自動駕駛系統(tǒng)的特斯拉Model S汽車與其前方一輛左轉(zhuǎn)的卡車相撞,導致駕駛員死亡,這是報告的第一個與自動駕駛系統(tǒng)有關(guān)的死亡案例。特斯拉的官方日志表明,無論是自動駕駛系統(tǒng)還是駕駛員“都沒有在明亮的天空下注意到貨運卡車白色的一側(cè),因此沒有踩剎車。”

有一個辦法也許能幫助特斯拉、優(yōu)步和其他公司避免此類災(zāi)難,即提高其汽車在計算和處理不確定性方面的表現(xiàn)。目前,AI“非常確信,即便它們大錯特錯”,牛津大學的凱斯勒說。如果算法做出了一個決定,“我們應(yīng)該充分地了解它對這個決定有多大信心,特別是對于醫(yī)療診斷或自動駕駛汽車來說,如果它非常不確定,那么人類可以介入并給出(他們)自己對形勢的判斷或評估。”

例如,澳大利亞迪肯大學的計算機科學家穆盧德•阿卜杜爾(Moloud Abdar)及其同事在AI將皮膚癌圖像歸為惡性或良性,或者黑色素瘤或非黑色素瘤時,應(yīng)用了幾種不同的不確定性量化技術(shù)。研究人員發(fā)現(xiàn),這些方法有助于防止AI做出過于自信的診斷。

自動駕駛汽車在量化不確定性方面依然存在挑戰(zhàn),因為目前的不確定性量化技術(shù)通常比較耗時,“而汽車無法等待,”阿卜杜爾說,“我們需要更快的辦法。”

06. 常識

南加州大學計算機科學家任翔(Xiang Ren,音)說,AI缺乏常識,即根據(jù)人們通常認為理所當然的廣泛日常知識背景,得出可接受的合理結(jié)論的能力。他說:“如果不充分重視這些模型的實際學習內(nèi)容,那么它們就會學習一些導致其發(fā)生故障的捷徑。”

例如,科學家可能會用仇恨言論異常多的地方的數(shù)據(jù)來訓練AI識別仇恨言論,比如白人至上主義論壇。然而,當這個軟件暴露在現(xiàn)實世界中時,它可能認識不到黑人和同性戀者可能比其他群體更經(jīng)常地使用“黑人”和“同性戀”這兩個詞。“即使一個帖子引用了一篇不帶任何感情色彩提到猶太人、黑人或同性戀的新聞文章,它也可能被錯誤地歸為仇恨言論。”任翔說。對比之下,“當一個形容詞被用在仇恨語境時,人類通讀整個句子就能識別出來。”

此前的研究表明,最先進的AI能夠以高達90%左右的準確率得出關(guān)于世界的邏輯推斷,這表明它們正在常識方面取得進步。然而,在測試這些模型時,任翔及其同事發(fā)現(xiàn),即使是最好的AI,生成邏輯連貫的句子的準確率也不到32%。當談到發(fā)展常識能力時,他說:“最近我們AI界非常關(guān)心的一件事是,利用更全面的檢查表來從多個維度查看模型的行為。”

07. 數(shù)學

雖然傳統(tǒng)計算機很擅長處理數(shù)字,但AI“在數(shù)學方面卻出人意料地糟糕”,加州大學伯克利分校的亨德里克斯說。“你的模型可能是最新、最強大的,能使用數(shù)百個GPU來訓練,但它們?nèi)匀徊蝗缧湔溆嬎闫骺煽俊?rdquo;

例如,亨德里克斯及其同事用數(shù)十萬個數(shù)學問題訓練了AI,并給出逐步解答。然而,在用1.25萬道高中數(shù)學競賽題測試時,“它的準確率只有5%左右。”他說。對比之下,一位3次獲得國際數(shù)學奧林匹克比賽金牌的選手“在沒有計算器的情況下”解答這些問題的準確率達90%。

如今的神經(jīng)網(wǎng)絡(luò)可以學會解決幾乎每一種問題,“只要你給它足夠的數(shù)據(jù)和足夠的資源,但數(shù)學問題不行。”亨德里克斯說。他表示,科學中的很多問題都需要大量的數(shù)學知識,因此目前AI的這一弱點可能會限制它在科學研究中的應(yīng)用。

目前尚不清楚為什么AI在數(shù)學方面表現(xiàn)不佳。有一種可能是,神經(jīng)網(wǎng)絡(luò)是像人腦一樣以高度并行的方式來處理問題的,而數(shù)學問題通常需要一系列的步驟來解答,因此AI處理數(shù)據(jù)的方式可能不適合這類任務(wù),“就像人類通常無法在頭腦中進行大量計算一樣。”亨德里克斯說。然而,AI在數(shù)學方面的糟糕表現(xiàn)“仍然是一個小眾話題,這個問題沒有多少吸引力”,他補充道。

猜你喜歡