精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

合成數(shù)據(jù):機(jī)器學(xué)習(xí)的未來(lái)

數(shù)據(jù)可謂是機(jī)器學(xué)習(xí)模型的命脈。不過(guò)當(dāng)這種寶貴資源的訪問(wèn)受到限制時(shí)會(huì)發(fā)生什么?正如很多項(xiàng)目和企業(yè)開(kāi)始展現(xiàn)的那樣,這時(shí)候合成數(shù)據(jù)就算不是一種出色的選擇,也是一種可行的選擇。

什么是合成數(shù)據(jù)?

合成數(shù)據(jù)是人工生成的信息,不是通過(guò)直接測(cè)量獲得。“假”數(shù)據(jù)本質(zhì)上不是新的概念或革命性的概念。它實(shí)際上是為缺少正常運(yùn)行所需的可用或必要信息的模型生成測(cè)試或訓(xùn)練數(shù)據(jù)的一種方法。

過(guò)去,缺少數(shù)據(jù)招致了使用隨機(jī)生成的一組數(shù)據(jù)點(diǎn)的便捷方法。盡管這對(duì)于教學(xué)和測(cè)試用途可能已經(jīng)足夠了,但隨機(jī)數(shù)據(jù)不是您想要拿來(lái)訓(xùn)練任何類(lèi)型的預(yù)測(cè)模型的數(shù)據(jù)。這就是合成數(shù)據(jù)概念的不同之處,它很可靠。

合成數(shù)據(jù)本質(zhì)上是一種獨(dú)特的概念,即我們可以巧妙地生成隨機(jī)化數(shù)據(jù)。故此,這種方法可以應(yīng)用于更復(fù)雜的用例,而不單單是測(cè)試。

怎樣生成合成數(shù)據(jù)?

雖說(shuō)生成合成數(shù)據(jù)的方式與隨機(jī)數(shù)據(jù)沒(méi)什么不同——只是通過(guò)更復(fù)雜的輸入集,但合成數(shù)據(jù)確實(shí)有不同的目的,故此有獨(dú)特的要求。

合成方法基于并僅限于預(yù)先作為輸入而饋入的某些標(biāo)準(zhǔn)。實(shí)際上,它不是隨機(jī)的。它基于一組具有特定分布和標(biāo)準(zhǔn)的樣本數(shù)據(jù),這些標(biāo)準(zhǔn)決定了數(shù)據(jù)點(diǎn)的可能范圍、分布和頻次。大致說(shuō)來(lái),目的是復(fù)制真實(shí)數(shù)據(jù)以填充更大的數(shù)據(jù)集,然后該數(shù)據(jù)集將足夠龐大,便于訓(xùn)練機(jī)器學(xué)習(xí)模型。

在探索用于提煉合成數(shù)據(jù)的深度學(xué)習(xí)方法時(shí),這種方法變得特別令人關(guān)注。算法可以相互競(jìng)爭(zhēng),目的是在生成和識(shí)別合成數(shù)據(jù)的能力方面相互超越。實(shí)際上,這里的目的是搞一場(chǎng)人工軍備競(jìng)賽,以生成超現(xiàn)實(shí)的數(shù)據(jù)。

為什么需要合成數(shù)據(jù)?

假如我們不能收集推進(jìn)文明所需的寶貴資源,就會(huì)找到一種創(chuàng)造寶貴資源的方法。這個(gè)原則現(xiàn)在同樣適用于機(jī)器學(xué)習(xí)和AI的數(shù)據(jù)領(lǐng)域。

在訓(xùn)練算法時(shí),擁有非常大的數(shù)據(jù)樣本量至關(guān)重要,否則算法識(shí)別的模式有可能對(duì)于實(shí)際應(yīng)用而言太過(guò)簡(jiǎn)單。這實(shí)際上非常合乎邏輯。正如人類(lèi)智能往往采取最容易的途徑來(lái)解決問(wèn)題,訓(xùn)練機(jī)器學(xué)習(xí)和AI時(shí)也經(jīng)常發(fā)生同樣的情況。

比如說(shuō),不妨將這運(yùn)用于對(duì)象識(shí)別算法,該算法可以從一組貓圖像中準(zhǔn)確識(shí)別狗。假如數(shù)據(jù)量太少,AI就有可能依賴(lài)不是它試圖識(shí)別的對(duì)象的基本特征的模式。在這種情況下,AI可能仍然有效,不過(guò)遇到不遵循最初識(shí)別的模式的數(shù)據(jù)時(shí),就會(huì)失效。

合成數(shù)據(jù)怎樣用于訓(xùn)練AI?

那么,解決辦法是什么?我們畫(huà)了許多略有不同的動(dòng)物,迫使網(wǎng)絡(luò)找到圖像的底層結(jié)構(gòu),而不單單是某些像素的位置。但不是手工繪制一百萬(wàn)條狗,最好構(gòu)建一個(gè)系統(tǒng),專(zhuān)門(mén)用于繪制狗,可用于訓(xùn)練分類(lèi)算法——這實(shí)際上是我們?cè)谔峁┖铣蓴?shù)據(jù)便于訓(xùn)練機(jī)器學(xué)習(xí)時(shí)所做的事情。

然則,這種方法存在明顯的缺陷。單單憑空生成數(shù)據(jù)代表不了真實(shí)世界,故此會(huì)招致算法在遇到真實(shí)數(shù)據(jù)時(shí)很可能無(wú)法運(yùn)行。解決方案是收集數(shù)據(jù)子集,分析和識(shí)別其中的趨勢(shì)和范圍,然后使用這些數(shù)據(jù)生成大量隨機(jī)數(shù)據(jù),這些數(shù)據(jù)很可能代表我們自行收集所有數(shù)據(jù)后數(shù)據(jù)的樣子。

這也是合成數(shù)據(jù)的價(jià)值所在。我們?cè)僖膊槐責(zé)o休止地收集數(shù)據(jù),然后在使用之前需要清理和處理這些數(shù)據(jù)。

合成數(shù)據(jù)為何能解決日益受到關(guān)注的數(shù)據(jù)隱私問(wèn)題?

全球眼下正在經(jīng)歷一場(chǎng)非常劇烈的轉(zhuǎn)變,特別是在歐盟:隱私和所生成的數(shù)據(jù)愈來(lái)愈受到保護(hù)。在機(jī)器學(xué)習(xí)和AI領(lǐng)域,加強(qiáng)數(shù)據(jù)保護(hù)是老大難問(wèn)題。受限制的數(shù)據(jù)經(jīng)常正是訓(xùn)練算法為最終用戶(hù)執(zhí)行和提供價(jià)值所需要的數(shù)據(jù),特別是對(duì)于B2C解決方案而言。

個(gè)人決定使用解決方案并故此批準(zhǔn)使用他們的數(shù)據(jù)時(shí),隱私問(wèn)題通常會(huì)得到解決。這里的問(wèn)題是,在您擁有提供足夠價(jià)值的解決方案、因而愿意交出個(gè)人數(shù)據(jù)之前,很難讓用戶(hù)向您提供其個(gè)人數(shù)據(jù)。故此,供應(yīng)商經(jīng)常會(huì)陷入先有雞還是先有蛋的困境。

合成數(shù)據(jù)就是解決方案,企業(yè)可以通過(guò)早期采用者獲得數(shù)據(jù)子集。之后,它們可以使用這些信息作為基礎(chǔ),便于生成足夠的數(shù)據(jù)用于訓(xùn)練機(jī)器學(xué)習(xí)和AI。這種方法可以大大減少對(duì)私有數(shù)據(jù)的費(fèi)時(shí)又費(fèi)錢(qián)的需求,仍可以為實(shí)際用戶(hù)開(kāi)發(fā)算法。

對(duì)于醫(yī)療保健、銀行和法律等某些行業(yè)而言,合成數(shù)據(jù)提供了一種更容易訪問(wèn)以前無(wú)法獲得的大量數(shù)據(jù)的方法,消除了新的和更先進(jìn)的算法通常面臨的制約因素。

合成數(shù)據(jù)能否取代真實(shí)數(shù)據(jù)?

真實(shí)數(shù)據(jù)的問(wèn)題在于它不是為了訓(xùn)練機(jī)器學(xué)習(xí)和AI算法而生成的,它只是我們周?chē)l(fā)生的事件的副產(chǎn)品。如前所述,這顯然限制了收集數(shù)據(jù)的可用性和易用性,還限制了數(shù)據(jù)的參數(shù)和可能破壞結(jié)果的缺陷(異常值)的可能性。這就是為什么可以定制和控制的合成數(shù)據(jù)在訓(xùn)練模型時(shí)更高效。

然則,盡管非常適用于訓(xùn)練場(chǎng)景,但合成數(shù)據(jù)將不可避免地始終依賴(lài)至少一小部分真實(shí)數(shù)據(jù)用于自身的創(chuàng)建。所以合成數(shù)據(jù)永遠(yuǎn)不會(huì)取代它所依賴(lài)的初始數(shù)據(jù)。更現(xiàn)實(shí)地說(shuō),它將大幅減少算法訓(xùn)練所需的真實(shí)數(shù)據(jù)量,這個(gè)過(guò)程需要比測(cè)試多出一大截的數(shù)據(jù)——通常80%的數(shù)據(jù)用于訓(xùn)練,另外20%的數(shù)據(jù)用于測(cè)試。

最后,假如處理得當(dāng),合成數(shù)據(jù)提供了一種更快捷、更有效的方式來(lái)獲取我們需要的數(shù)據(jù),成本比從現(xiàn)實(shí)世界獲取數(shù)據(jù)的成本更低,同時(shí)減少了煩人的數(shù)據(jù)隱私問(wèn)題。

猜你喜歡