搜索引擎自誕生之初到現在已經有二十多年,其形式和架構一直沒有發生很大改變。伴隨著互聯網技術的持續發展,未來的搜索環境將變得愈加復雜多樣,用戶獲取信息的方式也會發生很多的變化,自然語言、語音、視覺等多種輸入形式勢必會取代簡單的關鍵詞;答案、高階知識、分析結果、生成內容等多種模態內容輸出將取代簡單結果列表;在交互方式上也可能會從單輪檢索過渡到多輪自然語言交互。
那么在新的搜索的環境下,未來智能搜索技術都將會呈現出哪些特征呢?日前,在51CTO主辦的在??AISummit全球人工智能技術大會??上,中國人民大學高瓴人工智能學院副院長竇志成老師通過主題演講——《下一代智能搜索技術》,為廣大聽眾分享了新一代智能搜索技術的發展趨勢及核心特征,同時就交互式、多模態、可解釋搜索、及以大模型為中心的去索引化搜索等技術做出了詳盡分析。本文將竇志成老師的演講內容進行了編輯整理,希望能給大家帶來一些新的啟發:
未來搜索的主要特征
我們認為未來的搜索可能會有至少這五個方面的特征:
對話式,人和搜索引擎是通過自然語言進行多輪交互的一種方式。
個性化,會根據不同用戶的需求反饋不同的結果,而不是千篇一律、千人一面的為所有人反饋相同的結果。
多模態,返回的內容和輸入的方式可能不僅僅局限于用文本來作為媒介或者是途徑。
富知識,搜索返回的信息不僅僅是一個結果列表的形式,可能是有各種不同的展示的形式,以各種知識、實體的方式展示。
去索引,倒排索引或稠密索引的方式也迫切需要產生很大的變化。
對話式
現在使用的搜索引擎普遍采用的模式是在一個框里面輸入一兩個詞進行搜索。未來的搜索則可能是我們與搜索引擎采用對話的方式進行交互。
在傳統的搜索引擎采用的關鍵詞檢索方式,我們希望把所有要找的信息核心都通過關鍵詞描述出來,即我們假設單個查詢能夠完整、準確地表達這個信息的需求。但在表達一個較為復雜的信息時,關鍵詞其實是很難滿足需求的。而對話式搜索可以通過多輪交互來充分表達信息需求,比較符合人和人在交流的時層層遞進的信息交互方式。
想要到達這種交互式搜索,會給系統或算法帶來很大的挑戰,需要讓搜索引擎從多輪的自然語言交互中準確理解用戶的意圖,同時也要把理解出的意圖與用戶想要的信息做好匹配。
相比于傳統的關鍵詞搜索,對話式搜索需要更復雜的查詢理解(例如需要解決當前查詢中的省略,共指等問題),以還原用戶的真實搜索意圖。最簡單的方式是將歷史查詢全部拼接起來,使用預訓練語言模型進行編碼。
簡單的拼接對話方式雖然簡單,但可能會引入噪聲,并不是所有的歷史查詢都對于理解當前查詢是有幫助的,所以我們只選出和它有依賴關系的上下文,這樣也能解決長度的問題。
對話式檢索模型COTED
基于以上思想,我們提出了對話式稠密檢索的模型COTED,其主要包括如下三部分:
1、通過識別對話查詢中的依賴關系,來去除對話中的噪聲,進而更好地預測用戶的意圖。
2、基于對比學習的數據增強(模仿各種噪聲情況)和去噪損失函數,有效讓模型學會忽略無關的上下文,把它和最終匹配的損失函數聯合,做多任務的學習。
3、通過課程學習的方式來降低模型多任務學習的學習難度,最終提升模型性能。
然而,夠用于對話式搜索模型訓練的數據實際上是非常有限的,在有限的少樣本情況下,對話式搜索的模型訓練是非常困難的。
如何解決這個問題?出發點就是能否把搜索引擎日志遷移去做對話式搜索引擎的訓練。在這個思想上,把大規模的web搜索的日志轉換成對話式搜索日志,然后在轉換之后的數據上訓練對話式搜索的模型。但這種方法也同時伴隨著兩個很明顯的問題:
一是傳統的web搜索采用關鍵詞搜索的方式,對話式搜索是自然語言對話的方式,查詢形式是不一樣的,無法直接遷移使用。二是查詢本身就會存在很多噪聲,需要對搜索日志里面的用戶數據做一些清洗、過濾、轉換,才能用在對話式搜索里面。
對話式搜索訓練模型ConvTrans
為了解決這些問題,我們做了對話式搜索訓練模型ConvTrans,并實現了以下功能。
首先,以圖的方式對傳統的web搜索引擎中的日志進行了組織,通過查詢與查詢、查詢與文檔之間建立聯系構建了圖。在圖的基礎上,使用了一個基于T5的兩階段查詢改寫的模型,將一個關鍵詞的查詢改寫成一個問題的形式。經過改寫之后,圖中每個查詢都會用自然語言來表達新的查詢,再設計一個采樣的算法,從圖上做隨機游走,生成對話的會話,之后基于這個數據來訓練對話的模型。
實驗顯示,用這種自動生成的訓練數據來訓練的對話式搜索模型,能夠和使用昂貴的人造或者人工標注的數據達到同樣的效果,且隨著自動生成的訓練數據規模的增大,性能也會持續提升。這種方法使我們基于大規模搜索日志進行訓練對話式搜索模型成為了可能。
對話式搜索模型雖然在搜索上已經走了一大步,但這種對話方式仍然是被動的,搜索引擎一直被動的接受用戶的輸入,根據輸入來返回結果,搜索引擎沒有主動地去問用戶你到底要找什么。但在人和人的交流過程中,當你被問一個問題的時候,有時候你會主動地來反問一些問題來做澄清。
比如必應搜索里面,如果Query是“Headaches”,頭疼。它會問你“What do want to know about this medical condition”“你想知道關于這個疾病的什么事”,比如說是它的癥狀、還是治療、還是診斷、還是成因或者誘因。因為Headaches本身是非常寬泛的一個Query,在這種情況下,系統希望能夠進一步澄清你想找到哪里的信息。
這里面臨兩個問題,第一是候選項,就是想讓用戶去澄清到哪個具體的項。第二是澄清問題,搜索引擎主動反過來問用戶的這個問題。而核心詞是澄清問題里面最至關重要的一部分。
在這方面的探索,第一是通過查詢日志和知識庫去給定一個查詢的時候,能夠生成一些澄清的候選項。第二,基于規則可以通過搜索的結果來預測這個澄清問題的一些核心詞。同時也標注一些數據,通過有監督的模型來做這種文本標簽的分類。第三,進一步在這個標注數據的基礎上訓練端到端的生成模型。
個性化
個性化指的是未來的搜索將以用戶為核心。現在的搜索引擎,不管是誰來查,返回都是同樣的結果。而這并不能滿足用戶的特定化信息需求。
現在的個性化搜索采用的模式,首先通過用戶歷史學習用戶熟悉的知識信息,對查詢進行個性化實體消歧。其次,通過消歧后的查詢實體增強個性化匹配。
此外我們在基于產品品類構建用戶的多興趣模型方面也做了探索,假設用戶可能有自己在所有品類上的一些品牌(規格、型號)傾向性,但是這個傾向性不能簡單的通過一兩個向量來去刻畫。應該根據用戶購物的歷史,構建知識圖譜,通過知識圖譜針對不同品類學習不同的興趣,最終做更精準的個性化搜索的結果推送。
也可以用同樣的個性化方法去做聊天機器人,核心思想就是通過用戶歷史對話,學習用戶個性化興趣和語言模式,訓練個性化對話模型,可以模仿(代理)用戶說話。
多模態
現在的搜索引擎在處理多模態信息的時候,其實有相當多的局限性的。未來用戶獲取的信息可能不僅僅是一些文字、網頁,可能還包括圖片、視頻以及更復雜的結構信息。所以未來的搜索引擎在多模態信息獲取上還有很多工作需要做。
現在的搜索引擎在理解或者是做跨模態檢索時,即給出一個文本的描述,去找它對應的圖片的時候,做得還是有很多缺陷的。類似的搜索如果遷移到手機上,局限性就會更大。
所謂的多模態就是語言、要找的圖像、圖片、視頻等模態,映射到統一的一個空間上,這就意味著可以通過文字去找圖片,圖片去找文字,圖片去找圖片等。
對此,我們做了大規模多模態的預訓練模型——文瀾。其重點是基于海量的互聯網圖片和附近文字的弱監督相關性貢獻的信息訓練出來的。采用雙塔模式,最后訓練的是一個圖片的編碼器和文本的編碼器,這兩個編碼器通過端到端匹配的優化學習過程,讓最終的表示向量能夠映射到統一空間中,而不是把圖片的細粒度和文字的細粒度拼接在一起。
這種跨模態的檢索能力,其實不只是端到端給用戶使用web搜索引擎時提供了更多的空間,同時也可以支撐很多應用,例如創作,不管是社交媒體還是文創類,都可以用它來支撐。
富知識
現在的搜索引擎普遍檢索的主體還是網頁,而未來搜索引擎處理的單元不僅僅是網頁,應該是以知識為處理的單位,包括返回的結果也應該是高階的知識,而不是一個一個頁面的列表形式。很多時候用戶其實想通過搜索引擎來完成一些復雜的信息需求,故而希望搜索引擎幫助分析結果,而不是讓人來一個一個去分析。
基于此想法我們構建了分析引擎,相當于是在搜索引擎的基礎上,能提供深度的文本分析,幫助用戶高效、快捷地獲取高階知識。幫助用戶完成對大規模文檔的閱讀和理解,并對其中所包含的關鍵信息和知識進行抽取、挖掘、匯總,最終通過交互式的分析過程,讓用戶對挖掘到的高階知識進行瀏覽和分析,進而為用戶提供決策支持。
例如用戶希望找霧霾相關的信息,可以直接輸入“霧霾”。富知識模式與傳統的搜索引擎返回的結果不同,可能返回一個時間軸,告訴用戶關于霧霾的信息在時間軸上的分布等情況,還會總結出關于霧霾的子話題有哪些、機構有哪些、人物有哪些。當然它也可以像搜索引擎一樣提供詳細的結果的列表。
這種可以直接提供分析,而且是交互式分析的能力,能夠更好地幫助用戶獲取復雜信息的能力。提供給用戶的東西不再是簡單的搜索結果列表。當然這種交互式的多維知識分析,只是一種展示方式,以后還可以做更多的方式,比如我們現在正在做的一件事情就是從檢索到生成(有理有據的)內容。
去索引
現在的搜索引擎廣泛采用以索引為核心的分階段方式,從大量互聯網的網頁爬回所需內容后構建Index,也就是倒排的索引或稠密的向量索引。用戶的Query來之后,先要做召回,在召回的結果基礎上再做精細化排序。
這個模式有很多弊端,因為要分階段,如果一個階段上出了問題,例如在召回階段沒有找到想要的結果,它排序階段做得再好,也不可能返回很好的結果。
在未來的搜索引擎中,這種結構有可能是會被打破的。全新的想法是使用一個大的模型來取代現在的索引的模式,所有的查詢都可以通過模型來滿足。這就不再需要使用索引了,而是直接通過這種模型反饋想要的結果。
在這個基礎上,可以直接提供結果列表,也可以直接提供用戶所需的答案,甚至答案還可以是圖像,將各模態更好的融合在一起。去掉索引,直接通過模型來反饋結果,就意味著這個模型能夠直接return或者直接返回文檔的標識符,文檔標識符是一定要嵌入到模型中的,構建以模型為中心的搜索。
總結
現在的搜索引擎廣泛采用關鍵詞為輸入,文檔列表為輸出的這種簡單模式。在滿足人們復雜信息獲取需求方面,已經存在了一些問題。未來的搜索引擎將會是對話式的、是個性化的、是以用戶為中心的、是能夠破除千人一面的。同時能夠處理多模態的信息,能夠處理知識、能夠返回知識。在架構上,未來也一定會突破現有的采用倒排索引或者稠密向量索引的這種以索引為核心的模式,逐步過渡到以模型為核心的模式。