借鑒語用學和哲學的新研究提出了將會話代理與人類價值觀保持一致的方法。
語言是人類的基本特征,也是我們交流思想、意圖和感受等信息的主要方式。人工智能研究的最新突破導致創建了能夠以細微差別的方式與人類交流的對話代理。這些代理由大型語言模型提供支持——計算系統在大量基于文本的材料上進行訓練,以使用先進的統計技術預測和生成文本。
然而,盡管InstructGPT、Gopher和LaMDA等語言模型在翻譯、問??答和閱讀理解等任務中取得了創紀錄的性能水平,但這些模型也顯示出許多潛在的風險和失敗模式。這些包括產生有毒或歧視性語言以及虛假或誤導性信息[1,2,3]。
這些缺點限制了會話代理在應用環境中的有效使用,并引起人們對它們未能達到某些交流理想的方式的關注。迄今為止,大多數關于對話代理對齊的方法都集中在預測和降低危害風險上[4]。
我們的新論文《與人工智能對話:將語言模型與人類價值觀保持一致》采用了不同的方法,探索了人類與人工對話代理之間的成功溝通可能是什么樣子,以及哪些價值觀應該指導不同對話領域的這些互動。
為了解決這些問題,本文借鑒了語用學這一語言學和哲學的傳統,它認為對話的目的、語境和一系列相關規范都是良好對話實踐的重要組成部分。
語言學家和哲學家保羅·格賴斯將對話建模為兩方或多方之間的合作努力,他認為參與者應該:
然而,我們的論文表明,考慮到嵌入在不同會話域中的目標和價值存在差異,在將這些準則用于評估會話代理之前,需要進一步完善它們。
舉例來說,科學研究和交流主要是為了理解或預測經驗現象。鑒于這些目標,旨在協助科學研究的會話代理在理想情況下只會發表其真實性得到充分經驗證據證實的陳述,或者根據相關置信區間限定其立場。
例如,代理報告“在4.246光年的距離上,比鄰星是離地球最近的恒星”,只有在其基礎模型檢查該陳述與事實相符之后,才應該這樣做。
然而,在公共政治話語中扮演主持人角色的對話代理人可能需要展示完全不同的美德。在這種情況下,目標主要是管理差異并在社區生活中實現富有成效的合作。因此,代理人需要突出寬容、文明和尊重的民主價值觀[5]。
此外,這些值解釋了為什么語言模型產生有毒或偏見的言論往往如此成問題:冒犯性語言未能傳達對對話參與者的平等尊重,這是部署模型的上下文的關鍵值.同時,科學美德,例如經驗數據的全面呈現,在公眾審議的背景下可能不那么重要。
最后,在創造性的故事講述領域,交流交流的目標是新穎性和獨創性,這些價值觀再次與上述價值觀大不相同。在這種情況下,假裝的更大自由度可能是合適的,盡管保護社區免受以“創意用途”為幌子制作的惡意內容仍然很重要。
這項研究對開發一致的對話式AI代理具有許多實際意義。首先,它們需要根據部署的上下文體現不同的特征:語言模型對齊沒有一刀切的解釋。相反,代理的適當模式和評估標準(包括真實性標準)將根據對話交流的上下文和目的而有所不同。
此外,隨著時間的推移,對話代理還可能通過我們稱為上下文構建和闡明的過程培養更強大和尊重的對話。即使一個人不知道支配給定對話實踐的價值觀,代理仍然可以通過在對話中預先設定這些價值觀來幫助人類理解這些價值觀,從而使人類說話者的交流過程更深入、更富有成效。