圖片來(lái)源:123RF(有修改)
本文是我們探索人工智能業(yè)務(wù)系列的一部分
2022年對(duì)于生成式人工智能來(lái)說(shuō)是重要的一年。大型語(yǔ)言模型在生成文本和軟件代碼方面不斷取得進(jìn)展。與此同時(shí),隨著DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我們看到了文本到圖像生成器的巨大進(jìn)步。
這一年還標(biāo)志著生成式 AI 模型產(chǎn)品化的加速。生成模型的科學(xué)和技術(shù)正在成熟到能夠解決實(shí)際問(wèn)題的程度。現(xiàn)在,微軟和谷歌等公司正在尋找方法,在可能改變未來(lái)創(chuàng)造力的新興市場(chǎng)中占據(jù)領(lǐng)先地位。
在本周的AI@'22 會(huì)議上,谷歌展示了其在其產(chǎn)品中利用生成模型的路線圖。它的戰(zhàn)略可能是該領(lǐng)域走向何方以及未來(lái)競(jìng)爭(zhēng)可能轉(zhuǎn)向何處的前奏。
谷歌的生成模型
Google Parti 使用轉(zhuǎn)換器從文本令牌創(chuàng)建圖像(來(lái)源:YouTube)。
在 AI@ '22 上,Google Research 首席科學(xué)家 Douglas Eck 列出了 Google 目前在四個(gè)領(lǐng)域?qū)ι赡P偷难芯浚何谋尽⒃创a、音頻、圖像和視頻。
谷歌目前正在所有這些領(lǐng)域進(jìn)行測(cè)試項(xiàng)目,著眼于未來(lái)創(chuàng)造產(chǎn)品。Wordcraft 作家研討會(huì)旨在幫助作家在寫作中從大型語(yǔ)言模型中獲得幫助。Google 創(chuàng)建了 Wordcraft,這是一個(gè)使用語(yǔ)言模型 LaMDA根據(jù)用戶提供的提示生成文字的工具。該工具旨在在人類作家和 LLM 交互以共同創(chuàng)建故事的迭代過(guò)程中使用該模型。
“使用 LaMDA 編寫完整的故事是一條死胡同。當(dāng)它用于為特定角色添加香料或增強(qiáng)故事的某個(gè)方面時(shí),它是一種更有效的工具,”埃克說(shuō)。“用戶界面也必須正確。Wordcraft 工具的設(shè)計(jì)初衷就是讓作者能夠與生成模型進(jìn)行交互。”
Learning for Code 是一個(gè)使用 LLM 為開發(fā)人員生成代碼建議的項(xiàng)目。Google 目前正在內(nèi)部測(cè)試該工具,它包括單行和多行代碼完成建議。
AudioLM 使用語(yǔ)言模型來(lái)生成音頻。該模型將音頻樣本作為輸入并繼續(xù)它。它可用于生成音樂(lè)和語(yǔ)音。
Eck 在 AI@'22 上展示的最先進(jìn)的模型可能是文本到圖像模型Imagen和Parti。Imagen 的工作方式類似于 OpenAI 的 DALL-E 2,并使用擴(kuò)散模型將語(yǔ)言嵌入轉(zhuǎn)換為圖像。Parti 使用轉(zhuǎn)換器架構(gòu)從文本標(biāo)記生成圖像。DreamBooth是一個(gè)模型,它可以調(diào)整像 Imagen 這樣的文本到圖像生成器,以在不同的上下文中顯示主題。DreamFusion將擴(kuò)散模型的強(qiáng)大功能與神經(jīng)輻射場(chǎng) (NeRF)相結(jié)合,這是一種可以從 2D 圖像創(chuàng)建 3D 模型的深度學(xué)習(xí)架構(gòu)。
Google DreamBooth 微調(diào)生成模型以在不同的上下文中顯示特定主題。
Eck 還展示了 Google 使用 Imagen Video 和 Phenaki 進(jìn)行視頻生成研究的預(yù)覽。Imagen Video 使用擴(kuò)散模型創(chuàng)建一系列高分辨率圖像,這些圖像可以拼接在一起以創(chuàng)建視頻。Phenaki基于轉(zhuǎn)換器架構(gòu),將一系列文本提示轉(zhuǎn)換為一系列圖像。Eck 還展示了如何使用 Imagen Video 和 Phenaki 的組合從提示序列創(chuàng)建高分辨率視頻。
谷歌的生成模型政策
Eck 在整個(gè)演示文稿中明確指出的一件事是,生成模型并不意味著自動(dòng)化或取代人類的創(chuàng)造力。
“它不再是關(guān)于創(chuàng)建逼真畫面的生成模型。這是關(guān)于制作你自己創(chuàng)造的東西,”埃克說(shuō)。“技術(shù)應(yīng)該滿足我們對(duì)我們所做的事情的代理和創(chuàng)造性控制的需求。”
當(dāng)他討論谷歌的“負(fù)責(zé)任的人工智能”戰(zhàn)略時(shí),他進(jìn)一步強(qiáng)調(diào)了這一點(diǎn),并在演講結(jié)束時(shí)說(shuō):“創(chuàng)造力是使我們成為人類的重要組成部分。我認(rèn)為在構(gòu)建這些 AI 系統(tǒng)時(shí)牢記這一點(diǎn)很重要。”
除了這種言論的公關(guān)方面,旨在緩解對(duì)生成人工智能模型取代人類創(chuàng)造力的恐懼(這在很大程度上被夸大了),對(duì)控制的強(qiáng)調(diào)具有將領(lǐng)域轉(zhuǎn)向以人為中心的人工智能的積極影響。人工智能系統(tǒng)的設(shè)計(jì)方式應(yīng)該提供透明度和控制以增強(qiáng)人類。如果沒(méi)有人類的控制和監(jiān)督,生成模型等 AI 系統(tǒng)將表現(xiàn)不佳,因?yàn)樗鼈儗?duì)基本概念的掌握不如我們?nèi)祟悺?/p>
谷歌可以在生成人工智能領(lǐng)域競(jìng)爭(zhēng)嗎?
人工智能研究和產(chǎn)品化之間的鴻溝很難彌合。當(dāng)然,谷歌的 LLM 和文本到圖像模型的質(zhì)量并不遜色于OpenAI 的 GPT-3和 DALL-E 2。但問(wèn)題是,谷歌能否基于這些模型提供成功的產(chǎn)品?
在考慮將技術(shù)產(chǎn)品化時(shí),需要考慮幾個(gè)方面。技術(shù)會(huì)成為新產(chǎn)品的基礎(chǔ)嗎?如果沒(méi)有,是否會(huì)集成到現(xiàn)有產(chǎn)品中?它正在解決什么問(wèn)題,目前存在哪些替代解決方案?產(chǎn)品是否提供了足夠的附加值來(lái)說(shuō)服用戶轉(zhuǎn)換?它能否幫助鞏固公司在現(xiàn)有市場(chǎng)中的地位?
自然,公司將努力實(shí)現(xiàn)唾手可得的成果,即將技術(shù)帶到他們已經(jīng)擅長(zhǎng)的市場(chǎng)。在寫作領(lǐng)域,微軟領(lǐng)先于谷歌。Office 365 擁有比 G Suite 更大的市場(chǎng)份額,微軟在將 LLM 集成到其產(chǎn)品方面已經(jīng)領(lǐng)先一步。
微軟在GitHub Copilot和 Codex的編碼方面也處于領(lǐng)先地位,與谷歌的內(nèi)部代碼生成工具相比,它們已經(jīng)進(jìn)入了生產(chǎn)模式。谷歌最受歡迎的開發(fā)工具是 Colab 和 Android Studio,這將為它提供一個(gè)場(chǎng)所,以便在它準(zhǔn)備好時(shí)測(cè)試和推出其代碼 AI。但這些 IDE 的市場(chǎng)份額無(wú)法與微軟的 Visual Studio Code 和 GitHub Codespaces(同樣歸微軟所有)相提并論。
在圖像、視頻和音頻領(lǐng)域,我認(rèn)為 Adob??e 將成為生成 AI 的贏家。Adobe 已經(jīng)擁有最大的市場(chǎng)份額和完善的工具,這些工具會(huì)定期更新 AI 功能。Adobe 已經(jīng)在其工具套件中嘗試使用生成式 AI工具。
然而,這并不意味著在位者一定會(huì)主導(dǎo)生成人工智能領(lǐng)域。目前,我們正在從我們今天使用的工具(例如文字處理器、IDE 和圖像編輯應(yīng)用程序)的角度來(lái)研究生成模型。基本上,我們正在研究生成模型如何自動(dòng)化或改進(jìn)我們已經(jīng)在做的任務(wù)(完成我們的句子、編寫代碼塊、編輯或生成照片等)。當(dāng)我們創(chuàng)建新的工具和工作流系統(tǒng)時(shí),人工智能的真正潛力將得到發(fā)揮,這些系統(tǒng)可以充分利用生成模型的不斷增長(zhǎng)的力量和人工智能的其他進(jìn)步,以完全不同的方式做事(我在這里有一些想法,我以后會(huì)詳細(xì)介紹)。
正如谷歌重塑了信息發(fā)現(xiàn)和亞馬遜隨著網(wǎng)絡(luò)的普及而重塑了購(gòu)物一樣,發(fā)現(xiàn)并擁抱人工智能新機(jī)遇的公司必然會(huì)改造現(xiàn)有市場(chǎng)或創(chuàng)造新市場(chǎng)。