盡管AI由于指數級的發展而變得更加先進,但這種現代技術的局限性仍然存在。
那么,合成數據能否成為所有與AI相關的問題的解決方案?
在第四次工業革命中,每個行業都發現了現代技術的潛力;比如AI和ML。
幾乎所有其他組織都在部署AI以創建更高效的業務流程并確保更好的客戶滿意度。但是,初創企業、SOHO和中小型企業在采用AI時面臨一個重大問題——這就是所謂的冷啟動問題。雖然初創企業和中小企業一般沒有資源收集大數據,但冷啟動問題基本上是缺乏此類相關數據。
另一方面,行業巨頭已經擁有資源來收集真實世界的數據并將這些數據應用于訓練他們的AI系統。因此,對中小型企業的勝算很大。在這種情況下,合成數據可能是必要的啟動器。
合成數據可以成為數據驅動的商業模式背后的驅動力。此外,研究表明合成數據產生與真實數據相同的結果。與真實數據相比,合成數據被認為更便宜且處理時間更短。因此,合成數據的出現可以平衡目前由大企業主導的競爭環境,有利于中小企業和初創企業。
發現合成數據的好處
合成數據是基于用戶指定參數的計算機生成的人工數據,以確保數據盡可能接近真實世界的歷史數據。通常,Unreal引擎和Unity等游戲引擎通常用作模擬環境,用于測試和訓練基于AI的應用,例如自動駕駛汽車。基于合成數據開發AI驅動的應用程序有很多優勢。其中一些優勢包括:
1.開發原型
查找、聚合和建模大量相關的真實數據是一個乏味的過程。因此,生成合成數據可能是最佳解決方案。此類數據將能夠在大規模生產之前構建原型并測試此類原型以獲得所需的結果。與真實數據相比,使用合成數據構建原型更高效、更具成本效益。
非營利性AI研究企業Open AI正在開發大量基于AI的應用。在這些應用中,研究人員開發了用合成數據訓練的機器人,可以在看到一個動作只執行一次后學習一項新任務。一家美國加州科技初創企業正在開發一個AI平臺,其愿景類似于Amazon Go。這家初創企業旨在借助合成數據為便利店和零售商提供免結賬解決方案。他們還引入了AI驅動的智能系統來監控商店中的每一位購物者,以識別和分析他們的學習模式。
2.確保數據隱私
2018年11月,5億萬豪客戶在一次備受矚目的數據泄露事件中受到影響。在這5億人中,有3.27億用戶的護照信息、電子郵件地址、郵寄地址和信用卡信息等數據被盜。由于此類事件,人們擔心其數據的安全性和隱私性。
合成數據可以有效地解決此類隱私問題。合成數據不包括任何個人數據。因此,可以輕松確保數據隱私。合成數據在為醫療保健應用訓練AI系統方面非常有用。AI系統通常需要真實的患者數據。這威脅到患者的隱私。合成數據允許在醫療保健領域開發先進的AI應用程序,同時保持患者的機密性。
例如,來自Nvidia的研究人員正在與明尼蘇達州的Mayo Clinic以及波士頓的MGH和BWH臨床數據科學中心合作,正在使用生成對抗網絡來生成用于訓練神經網絡的合成數據。生成的合成數據包含來自阿爾茨海默病神經影像學倡議數據集的3,400個MRI和來自多模態腦腫瘤圖像分割基準數據集的200個4D腦MRI和腫瘤。同樣,模擬X射線也可以與實際X射線一起使用,以訓練AI系統識別多種健康狀況。
3.前所未有的場景測試和訓練
開發AI驅動的應用最重要的過程之一是測試系統性能。如果系統沒有產生所需的輸出,則需要對其進行重新訓練。在這種情況下,合成數據可以證明是有益的。合成數據可以生成場景來測試AI系統,而不是使用真實數據或在真實環境中測試系統。這種方法比獲取真實數據便宜且耗時更少。
同樣,合成數據還可以針對未來可能出現的缺乏真實數據或事件的場景訓練新的或現有的系統。通過這種方法,研究人員可以開發更具未來感的AI應用。此外,使用合成數據重新訓練AI系統更簡單,因為生成合成數據比收集準確的真實數據要簡單。
由于這些好處,合成數據已成為測試和訓練自動駕駛汽車的一種可訪問的替代方案。許多自動駕駛汽車開發人員正在使用GTA V等模擬游戲環境來訓練他們的基于AI的系統。同樣,May Mobility正在通過使用合成數據訓練他們的車輛來構建自動駕駛微型交通服務。
另一家名為Waymo的自動駕駛汽車開發商已經通過在模擬道路上行駛50億英里和在真實道路上再行駛800萬英里來測試其自動駕駛汽車。合成數據方法允許開發人員在模擬道路上測試他們的自動駕駛汽車,這比在實際道路上直接測試要安全得多。
4.提高數據靈活性
獲取真實數據是一個乏味的過程,包括支付注釋費用并確保避免任何侵犯版權的行為。此外,真實數據只能用于在特定領域具有足夠歷史數據的特定場景。與真實數據不同,合成數據可以立即呈現對象、場景、事件和人員的任意組合。合成數據可以生成能夠發現利基應用的通用數據集。因此,研究人員可以利用合成數據探索無限的可能性。幾家初創企業通過開發滿足客戶要求的訓練數據集,創造了開放的數據經濟。
5.探索合成數據的局限性
盡管合成數據可以幫助AI到達未被發現的領域,但其局限性可能成為其主流部署的主要障礙。對于初學者來說,合成數據模擬了真實世界數據的多個屬性,但它不會完全復制原始數據。在對此類合成數據進行建模時,AI系統只會在真實數據中尋找共同的趨勢和情況。因此,現實世界數據中極端案例中包含的罕見場景可能永遠不會包含在合成數據中。
此外,研究人員還沒有開發出一種機制來檢查數據是否準確。發現真實數據中的缺陷并減少它們比使用合成數據更簡單。AI驅動的系統已經有陰暗面這會助長無意的偏見。使用合成數據,預測這種偏見的范圍和影響可能還為時過早。
6.克服挑戰
企業組織需要了解合成數據是一個相當新的發現。此類數據的效率和準確性還沒有根據當前的行業標準進行評估。因此,合成數據不應被視為獨立的數據源。尤其是在面臨安全問題的應用中,例如醫療保健應用和自動駕駛汽車,合成數據必須與現實世界數據相結合,以開發AI系統。但零售業的應用具有較低的風險因素,很容易依賴合成數據。
出于測試目的,合成數據是一種可行且成本低廉的解決方案。但是,出于其他目的,在采用合成數據作為獨立解決方案之前,需要徹底研究和分析AI系統的結果。隨著進一步的研究,合成數據對于多種操作可能會變得更加可靠。