精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

AI 與合成生物學「聯姻」的五大挑戰

在過去的二十年里,生物學發生了翻天覆地的變化,建立在生物系統上的工程成為了可能。賦予了我們細胞遺傳密碼(DNA)排序能力的基因組革命是這一巨大變化的主要推手。而基因組革命帶來的最新發現之一,正是使用CRISPR在體內精確編輯DNA的能力。

遺傳密碼的高級表現,如蛋白質的合成,被稱為「表型」(phenotype)。高通量表型數據與DNA的精確編輯結合到一起,將底層代碼的變化與外部表型聯系了起來。

圖注:Wacomka

圖注:本圖體現了細胞遺傳密碼(DNA)的高層次表現

圖注:生物學中經常使用的數據集/數據類型(本列表收錄不全)

1合成生物學的潛力

合成生物學將對食品、能源、氣候、醫藥和材料……以至于世界上每個領域都產生變革性的影響。

圖注:合成生物學可能會影響世界上的每一個領域

合成生物學已經為世人帶來了不用犧牲豬就能獲得豬的胰島素(在之前的基因工程階段就能做到)、合成皮革、壓根不是蜘蛛吐的蛛絲做的大衣、抗瘧疾和抗癌藥物、嘗起來像肉的無肉漢堡、可再生生物燃料、沒有啤酒花的啤酒花味啤酒,已滅絕了的花朵的香味,用于化妝品的人造膠原蛋白,消除攜帶登革熱蚊子的基因。許多人認為這只是冰山一角,因為設計生物的能力帶來了改造世界的無限可能性,而且在這一領域,公共和私人投資水平都在不斷增長。

圖注:學術(a)和商業(b)領域的顯著增長為 AI 在合成生物領域的應用提供了豐富的信息、數據和環境資源。

此外,進入AI第三次浪潮后,AI專注于將環境融入模型,其影響合成生物學的潛力大大增加。

眾所周知,生物體的基因型與其說是其表型的藍圖,不如說是一個復雜的、相互關聯的、動態系統的初始條件。生物學家們花了幾十年的時間來構建和管理一套大型包含調節、關聯、變化速度和功能在內的屬性,用來描述這個復雜的、動態的系統。其他資源如基因網絡、已知功能關聯、蛋白質與蛋白質的相互作用、蛋白質與代謝物的相互作用以及轉錄、翻譯和交互的知識驅動的動態模型則為人工智能模型提供了豐富的資源。

模型的可解釋性對于揭示新的設計原則也是至關重要的。這些模型給了生物學家去解決關于生物系統的更復雜的問題的能力,并且建立綜合的、可解釋的模型去加速發現與研究。我們可以從合成生物學出版物的數量以及合成生物學的商業機會中明顯看出該領域知識和資源的增長。

2AI 及其對合成生物學的影響

與AI在合成生物領域的潛力相比,它在合成生物領域的影響有限。

我們已經看到了AI的成功應用,但仍然局限于特定的數據集和研究問題。AI在該領域目前面對的挑戰,仍然是對更廣泛的應用程序和其他數據集來說有多大的通用性。

數據挖掘、統計和機械建模目前是該領域計算生物學和生物信息學的主要驅動因素,但這些技術與人工智能/機器學習之間的界限往往是模糊的。例如,聚類是一種數據挖掘技術,可以識別基因表達數據中的模式和結構,這些模式可以表明工程修改是否會導致細胞的毒性結果。這些聚類技術還可以作為無監督學習模型,在未標記的數據集中找到結構。這些正在開發中的經典技術和新的AI/ML(機器學習)方法將在未來的領域合成生物中發揮更大的作用和影響,因為屆時人們對于更大的數據集將習以為常。轉錄組數據量每7個月翻一番,蛋白質組學和代謝組學的高通量工作流程越來越可用。

此外,實驗室工作微流控芯片的逐步自動化和小型化預示著未來數據處理和分析將使得合成生物學的生產力倍增。DARPA的協同發現和設計(SD2, 2018–2021) 計劃專注于構建人工智能模型,旨在拉近AI與合成生物學需求的差距。這一點在一些采用該領域SoTA技術的公司中也很明顯(例如Amyris、Zymergen或Ginkgo Bioworks)。

AI和合成生物學在一些方面存在重疊,比如將現有AI/ML應用于現有數據集;生成新的數據集(例如即將到來的NIH Bridge2AI);并創造新的AI/ML技術來應用于新的或現有的數據。雖然SD2在最后一項中有所貢獻,但其仍有一定潛力,未來也有較長的路要走。

人工智能可以幫助合成生物學克服一個大挑戰,即預測生物工程方法對生物主體和環境的影響。由于無法預測生物工程的結果,合成生物學的細胞工程目標(即逆設計)只能通過大量的試錯來實現。人工智能提供了一個利用公開數據和實驗數據來預測對生物主體和環境影響的機會。

為細胞編程設計遺傳結構。 許多合成生物學領域的研究都集中在基因結構/基因線路的工程上,這與設計電子電路面臨著的挑戰大相徑庭。

人工智能技術結合了已知的生物物理、機器學習和強化學習模型,能夠有效預測結構對主體的影響,反之亦然,雖然已經頗為強大,但仍然有改進空間。而在機器輔助基因線路設計方面,已有各種人工智能技術投入應用,其中包括專家系統、多智能體系統、約束推理、啟發式搜索、優化和機器學習。

基于序列的模型和圖卷積網絡在工程生物系統領域也得到了關注。因子-圖神經網絡已被用于將生物知識納入深度學習模型。圖卷積網絡已被用于從蛋白質與蛋白質相互作用網絡中預測蛋白質的功能。基于序列的卷積和遞歸神經網絡模型已被用于識別蛋白質的潛在結合位點、基因的表達和新的生物結構的設計。人工智能最有用之處是應用于開發綜合模型,而這將減少需要進行的實驗或設計的數量。

代謝工程。在代謝工程中,人工智能已經應用到生物工程過程的幾乎所有階段,例如人工神經網絡已被用于預測翻譯起始位點,注釋蛋白質功能,預測合成途徑,優化多個外源基因的表達水平,預測調控元件的強度,預測質粒表達,優化營養濃度和發酵條件,預測酶動力學參數,了解基因型與表型的關聯,預測CRISPR的指導效果等階段。聚類已被用于發現次生代謝物生物合成基因聚類和識別催化特定反應的酶。集合方法已被用于預測途徑動態、最優生長溫度,并在定向進化方法中找到賦予更高適應度的蛋白質。支持向量機已被用于優化核糖體結合位點序列和預測CRISPR引導RNA的行為。在代謝工程的各階段中,人工智能最有希望被應用于流程放大,這是該領域的一個重大瓶頸,以及下游處理(例如從發酵液中系統提取所產生的分子)。

實驗自動化。在幫助自動化實驗室工作和推薦實驗設計方面,人工智能的影響已經遠遠超出了DBTL周期的“學習”階段。自動化正逐漸在實踐中變得十分重要,因為自動化是獲得訓練人工智能算法所需的高質量、大容量、低偏差數據的最可靠的方式,自動化還使得可預測的生物工程成為可能。自動化提供了將復雜協議快速轉移和擴展到其他實驗室的機會。例如,液體處理機器人站構成了生物鑄造廠和云實驗室的支柱。這些鑄造廠已經能夠看到在未來自身會被機器人和規劃算法顛覆,從而獲得快速迭代通過DBTL周期的能力。語義網絡、本體和模式徹底改變了設計和協議的表示、通信和交換。這些工具支持快速實驗,并以結構化、可查詢的格式生成更多的數據。在一個大多數內容要么丟失,要么被人工記錄在實驗室筆記中的領域,人工智能的前景推動領域發生重大變化,從而減少生成數據的障礙。

微流體是宏觀液體處理的替代品,具有更高的通量、更少的試劑消耗和更便宜的結垢。事實上,微流體可能是實現自動駕駛實驗室的關鍵技術,它有望通過使用人工智能增強自動化實驗平臺,大大加快研發過程。自動駕駛實驗室涉及完全自動化的DBTL周期,其中人工智能算法會根據之前的實驗結果進行假設,積極尋找有前景的實驗程序。因此這可能是合成生物領域人工智能研究人員的最大機會。雖然自動DBTL回路已經在液體處理機器人工作站中得到了證明,但微流控芯片提供的可擴展性、高通量能力和制造靈活性可能會提供最終的技術飛躍,使人工智能成為現實。

3用AI研究合成生物學所面臨的挑戰

人工智能已經開始進入各種合成生物應用領域,但仍然存在的技術和社會問題成為了這兩個領域之間的障礙。

技術挑戰。將人工智能應用于合成生物學的技術挑戰是:數據分散在不同的模式中,難以組合,非結構化,往往缺乏收集數據的背景;模型需要的數據比通常在單個實驗中收集的數據多得多,而且缺乏可解釋性和不確定性量化;并且在更大的設計任務中,沒有度量標準或標準來有效地評估模型的性能。此外,實驗往往設計為只探索積極的結果,這使得模型的評估變得復雜化或偏倚。

圖注:將人工智能技術應用于合成生物學領域的挑戰。

數據挑戰。缺乏合適的數據集仍然是人工智能與合成生物學結合的首要障礙。將人工智能應用于合成生物學需要從個體實驗中獲得大量標記過的、精選的、高質量、情境豐富的數據。盡管該社區在建立包含各種生物序列(甚至全基因組)和表型的數據庫方面取得了進展,但標記數據仍然很匱乏。此處所說的“標記數據”指的是映射到捕捉它們的生物功能或細胞反應的測量的表型數據。正是這種測量和標簽的存在讓AI/ML和合成生物學解決方案日趨成熟,和其他領域一樣讓AI與人類的能力相互競爭。

缺乏對數據工程的投資是缺乏適用數據集的部分原因。在人工智能技術進步的光芒掩蓋下,人們往往看不到支持和確保其成功的計算基礎設施需求。AI社區將其稱為需求金字塔,數據工程是其中一個重要的組成部分。數據工程中包括了實驗規劃、數據收集、結構化、訪問和探索的步驟。成功的AI應用程序故事包含標準化、一致和可復制的數據工程步驟。雖然我們現在可以以前所未有的規模和細節收集生物數據,但這些數據往往不能立即適用于機器學習。目前在采用全社區標準來存儲和共享測量數據、實驗條件和使得數據更服從于AI技術的其他元數據方面仍存在許多障礙。需要進行嚴格的工作和達成高度共識才能使這些標準迅速被采用,同時促進數據質量評估的通用標準。簡而言之,人工智能模型需要在所有實驗中進行一致和可比的測量,這就會延長實驗時間線。這一要求為已經遵循復雜協議進行科研實驗人員又增加了巨大的負擔。因此,為了趕近在眉睫的項目期限,收集數據的長期需要往往會被犧牲掉。

圖注:一個規范的AI/ML基礎設施可以支持合成生物學研究。雖然研究中期往往是人們關注的焦點,但基礎才是至關重要的,需要大量的資源投資。

這種情況通常會造成稀疏的數據集合,稀疏的數據集合只表示構成組學數據棧的多個層的一小部分。在這種情況下,數據表示對集成這些孤立數據集進行綜合建模的能力有重大影響。目前,業界在各個垂直領域都投入了大量工作,執行數據清理、模式對齊以及提取、轉換和加載操作(ETL),用這種方式收集難以控制的數字數據,并將其準備為適合分析的形式。這些任務占據了數據科學家近50%到80%的時間,限制了他們深入探索的能力。處理大量的數據類型(數據多模態)是合成生物學研究人員面臨的一個挑戰,與數據量相比,預處理活動的復雜性隨著數據多樣性的增加而急劇增加。

建模/算法的挑戰。許多推動當前人工智能進步的流行算法(例如計算機視覺和NLP領域的流行算法)在分析組學數據時都沒有魯棒性。當應用于特定實驗中收集的數據時,這些模型的傳統應用常常遭受“維數災難”的困擾。在特定條件下,一個實驗人員可以就一個生物體產生超過12,000個測量值(維度)的基因組學、轉錄組學和蛋白質組學數據。對于這樣一個實驗,標記實例的數量(例如,成功或失敗)通常最多只有幾十到幾百個。對于這些高維數據類型,很少捕捉到系統的動態(時間分辨率)。這些測量誤差使得對復雜的動態系統進行推斷成為一個重大挑戰。

圖注:維數災難

組學數據與其他數據模式(如順序數據、文本數據和基于網絡的數據)既有相似之處,也有不同之處,而經典方法并不總是適用。這些數據相同的特征包括位置編碼和依賴關系,以及復雜的交互模式。然而這些數據之間也有一些基本的差異,如:它們的潛在表征,有意義分析所需的背景,以及跨模態的相關標準化以進行生物學上有意義的比較。因此,很難找到有魯棒性的生成模型(類似于高斯模型或隨機塊模型)可以準確地描述組學數據。

此外,生物序列和系統代表了復雜的生物功能編碼,但很少有系統的方法以類似解釋語義或從書面文本上下文的方式來解釋這些編碼。這些不同的特征使得通過數據探索提取見解、生成和驗證假設具備挑戰性。工程生物學涉及到學習黑盒系統的挑戰,我們可以觀察輸入和輸出,但我們對系統內部工作的了解有限。考慮到這些生物系統運行在組合的大參數空間中,人工智能解決方案使用策略有效地設計實驗以探索生物系統,從而產生各種假設并進行驗證,等于是在這個空間中提出了巨大的需求和機會 。

最后,許多流行的AI算法解決方案沒有明確地考慮不確定性,也沒有顯示出在輸入擾動下控制誤差的魯棒機制。考慮到我們正在嘗試設計的生物系統中固有的隨機性和噪聲,這種基本差距在合成生物空間中尤其重要。

指標/評估的挑戰。基于預測和準確性的標準AI評價指標不足以應用在合成生物學領域中。像?這樣的回歸模型或基于分類模型的準確性的度量標準不能解釋我們試圖建模的潛在生物系統的復雜性。在這個領域中,量化一個模型能夠闡明生物系統內部工作和獲取現有領域知識的其他指標也同樣重要。為此,包含可解釋性和透明度原則的人工智能解決方案是支持迭代和跨學科研究的關鍵。此外,對于恰當地量化不確定性的能力,我們需要創造性地開發新的指標來衡量這些方法的有效性。

我們還需要適當的實驗設計指標。評估和驗證合成生物學中的模型有時需要額外的實驗和額外的資源。少量的分類錯誤或小錯誤可能會對研究目標產生重大影響。這些成本應整合到人工智能模型的目標函數或評估中,以反映誤分類對現實世界的影響。

社會學的挑戰。在利用人工智能與合成生物學結合的方面,社會學方面的問題可能比技術障礙更具挑戰性(反之亦有可能)。我們的印象是,研究當中所涉及的完全不同的文化之間缺乏協調和理解,因此會導致一些社會學方面的障礙。雖然已經已經有些辦法能解決這種障礙,但有趣的是,學術界和工業界仍然存在一些曠日持久的社會學問題。

之所以會出現社會問題,是因為兩個非常不同群體的專家:計算科學家和實驗室科學家在工作中碰撞摩擦,產生了一定的分歧。

計算科學家和實驗室科學家接受的訓練不同之處太多。經過訓練的計算科學家傾向于專注于抽象、熱衷于自動化、計算效率和顛覆性方法。他們自然傾向于任務專門化,并想方設法將重復性任務丟給自動化計算機系統去做。而實驗室科學家都很實際,他們接受過具體觀察的訓練,更喜歡通過可解釋的分析來準確描述實驗的具體結果。

圖注:計算科學家和實驗室科學家來自不同的研究文化背景,他們必須學會共同協作,才能從人工智能和合成生物結合中充分受益。

這兩個世界有著不同的文化,這不僅反映在這兩部分人如何解決問題,也反映在他們認為哪些問題值得解決。

例如,致力于建設支持通用研究的基礎設施,與致力于研究特定研究問題的努力之間一直很緊張。計算科學家傾向于提供可用于各種項目的可靠基礎設施,而實驗科學家往往專注于最終目標。計算科學家喜歡開發數學模型來解釋和預測生物系統的行為,而實驗室科學家喜歡產生定性的假設,并盡快通過實驗來檢驗這些假設(至少在研究微生物時,因為這些實驗可以在3-5天內很快完成)。

此外,計算機科學家們往往只對一些虛高的目標感到興奮,比如生物工程生物對火星、生活寫編譯器能夠創建DNA來滿足所需的規范,重建樹采取所需的形狀,生物工程龍在現實生活中,或者用人工智能取代科學家。實驗室的科學家們則認為這種目標純屬“炒作”,因為之前的案例中,計算類型承諾了許多,卻沒有兌現,他們寧愿只考慮使用當前的技術狀態可以實現的目標。

解決社會的挑戰。解決這些社會學問題的方法是去鼓勵跨學科的團隊和需求。雖然我們不能否認,在公司(團隊一榮俱榮一損俱損)中實現這種包容的環境可能比在學術環境中更容易,因為在學術環境中一個研究生或博士后往往是發表了幾篇第一作者論文就宣稱成功了,而不需要與其他學科進行整合。

實現這種整合的一種可能的方式是開辦交叉培訓課程,讓實驗室科學家接受編程和機器學習的培訓,讓計算科學家接受實驗培訓。這樣就能給兩個社區都帶來一些有價值的、獨特的、必要的文化交流。大家越早發現這一點,合成生物學就能發展得越快。

從長遠來看,我們需要將生物和生物工程的教學與自動化和數學相結合的大學課程。雖然目前有一些學校正在開辦這樣的課程,但目前只是杯水車薪而已。

4觀點和機會

人工智能可以從根本上增強合成生物學,還能通過為工程階段空間增加第三個軸,比如物理、化學或者生物,從而使其充分發揮影響力。最明顯的是,人工智能可以在生物工程結果中產生準確的預測,從而實現有效的逆向設計。

此外,人工智能還可以支持科學家設計實驗,并選擇何時何地采樣,而目前這一問題需要訓練有素的專家來解決。人工智能還可以支持自動搜索、高吞吐量分析和基于大數據源的假設生成,這些數據源包括歷史實驗數據、在線數據庫、本體和其他技術材料。

人工智能可以允許合成生物學領域專家更快地探索大型設計空間,并提出一些有趣的“跳出框框”的假設,從而增加專家們的知識。合成生物學為當前的人工智能解決方案提出了一些獨特的挑戰,如果這些挑戰得到解決,將使得合成生物學和人工智能領域得到根本性進步。設計生物系統本質上依賴于控制系統的能力,這是對系統基本規律理解的終極考驗。因此,能夠實現合成生物研究的人工智能解決方案必須能夠描述能夠做到最佳預測的機制。

盡管最近基于深度學習架構的人工智能技術已經改變了我們對特征工程和模式發現的看法,但就推理和解釋其學習機制的能力而言,它們仍處于起步階段。

因此,結合因果推理、可解釋性、魯棒性和不確定性估計需求的人工智能解決方案在這一跨學科領域具有巨大的潛在影響。生物系統的復雜性使得純粹基于蠻力關聯發現的人工智能解決方案無法有效地描述系統的內在特征。將物理和機械模型與數據驅動模型順利地結合起來的一類新算法是一個令人興奮的新研究方向。目前我們在氣候科學和計算化學方面看到了一些初步的積極成果,希望在生物系統研究方面也能取得類似的進展。

由于人工智能提供了修改生物系統的工具,合成生物學還可以反過來激發新的人工智能方法。生物學啟發了諸如神經網絡、遺傳算法、強化學習、計算機視覺和群體機器人等人工智能的基本要素。事實上,有許多生物現象可以用也值得用數字技術來模擬的。例如,基因調控涉及到一個精巧的相互作用網絡,它不僅允許細胞感知環境并對環境作出反應,而且還保持細胞的存活和穩定。保持體內平衡(由生命系統維持的穩定的內部、物理和化學條件的狀態)涉及到在適當的時間、適當的數量產生適當的細胞成分,感知內部梯度,并小心地調節細胞與環境的交換。我們能不能理解并利用這種能力來生產真正自我調節的人工智能或機器人呢?

另一個例子涉及緊急屬性(即,由系統顯示但不由其組成部分顯示的屬性)。例如,蟻群的行為和反應是一個單一的有機體,不僅僅是單個螞蟻的總和。類似地,意識(即,對內部或外部存在的感知或意識)是一種來自物理基礎(比如神經元)的定性特征。自組織和集體建造結構的群機器人已經存在。我們能不能用涌現的一般理論來創造機器人和生物系統的混合體呢?我們能從一個完全不同的物理基質,比如晶體管中創造意識嗎?最后一個可能的例子涉及自我修復和復制:即使是最簡單的生命例子也顯示出自我修復和復制的能力。我們能理解這種現象產生自我修復和復制的人工智能的困境嗎?

雖然這種生物模擬以前就有人考慮過,但“合成生物”的美妙之處在于,它為我們提供了“修補”生物系統的能力,以測試生物模擬的模型和基本原理。例如,我們現在可以在基因組規模上修補細胞基因調控,對其進行修改,并測試到底是什么導致了其非凡的韌性和適應性。或者我們可以對螞蟻進行生物工程,測試隨后會發生什么樣的蟻群行為,以及這種行為如何影響螞蟻的存活率。或者我們可以改變細胞的自我修復和自我復制機制,測試長期進化對其競爭能力的影響。

此外,在細胞建模中,我們能夠很好地理解所涉及的生物機制。就算了解了神經網絡如何檢測眼睛的形狀,也不太可能就明白大腦是怎么做同樣的事情的,但合成生物學的研究不一樣。機械模型的預測并不完美,但產生了質量上可以接受的結果。將這些機制模型與ML的預測能力相結合,可以幫助彌合兩者之間的差距,并提供生物學上的見解,解釋為什么某些ML模型在預測生物行為方面比其他模型更有效。這種見解可以引導我們研究新的ML體系結構和方法。

人工智能可以幫助合成生物,合成生物也可以反過來幫助人工智能,這兩個學科在持續反饋循環中的相互作用,將創造我們現在不能想象的未來,就像本杰明·富蘭克林也無法想象他對電的發現,在未來有一天會使互聯網成為可能。

猜你喜歡