精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

一文讀懂計(jì)算機(jī)視覺,干貨滿滿

1.前言

計(jì)算機(jī)視覺(Computer Vision),通常簡稱CV,是一個(gè)通過技術(shù)幫助計(jì)算機(jī)“看到”并“看懂”圖像的研究領(lǐng)域,比如使計(jì)算機(jī)理解照片或視頻的內(nèi)容。

這篇文章將對(duì)計(jì)算機(jī)視覺進(jìn)行整體介紹。本文章共分為六個(gè)部分,分別是:

計(jì)算機(jī)視覺為何重要

什么是計(jì)算機(jī)視覺

計(jì)算機(jī)視覺的基本原理

計(jì)算機(jī)視覺的典型任務(wù)

計(jì)算機(jī)視覺在日常生活中的應(yīng)用場景

計(jì)算機(jī)視覺面臨的挑戰(zhàn)

2.計(jì)算機(jī)視覺為何重要

在生理學(xué)上,視覺(Vision)的產(chǎn)生都始于視覺器官感受細(xì)胞的興奮,并于視覺神經(jīng)系統(tǒng)對(duì)收集到的信息進(jìn)行加工之后形成。我們?nèi)祟愅ㄟ^視覺來直觀地了解眼前事物的形體和狀態(tài),大部分人依靠視覺來完成做飯、越過障礙、讀路牌、看視頻以及無數(shù)其他任務(wù)。實(shí)際上,假如不是盲人這類特殊群體,絕大多數(shù)人對(duì)外界信息的獲取都是通過視覺完成的,而這個(gè)占比高達(dá)80%以上——這個(gè)比例并不是沒有根據(jù)的,著名實(shí)驗(yàn)心理學(xué)家赤瑞特拉(Treicher)曾通過大量的實(shí)驗(yàn)證實(shí):人類獲取的信息的83%來自視覺,11%來自聽覺,剩下的6%來自嗅覺、觸覺、味覺。所以,對(duì)于人類來說,視覺無疑是最重要的一種感覺。

不僅人類是“視覺動(dòng)物”,對(duì)于大多數(shù)動(dòng)物來說,視覺也都起到十分重要的作用。通過視覺,人和動(dòng)物感知外界物體的大小、明暗、顏色、動(dòng)靜,獲得對(duì)機(jī)體生存具有重要意義的各種信息,通過這些信息能夠得知,周圍的世界是怎樣的,以及怎樣和世界交互。

而在計(jì)算機(jī)視覺出現(xiàn)之前,圖像對(duì)于計(jì)算機(jī)來說是黑盒的狀態(tài)。一張圖像對(duì)于計(jì)算機(jī)來說只是一個(gè)文件、一串?dāng)?shù)據(jù)。計(jì)算機(jī)并不知道圖片里的內(nèi)容到底是什么,只知道這張圖片是什么尺寸,占多少內(nèi)存大小,什么格式的等等。

假如計(jì)算機(jī)、AI想要在現(xiàn)實(shí)世界發(fā)揮重要作用,就必須看懂圖片!故此,半個(gè)世紀(jì)以來,計(jì)算機(jī)科學(xué)家一直在想辦法讓計(jì)算機(jī)也擁有視覺,從而產(chǎn)生了“計(jì)算機(jī)視覺”這個(gè)領(lǐng)域。

網(wǎng)絡(luò)的迅速發(fā)展也令計(jì)算機(jī)視覺變得尤為重要。下圖是2020年以來網(wǎng)絡(luò)上新增數(shù)據(jù)量的走勢(shì)圖。灰色圖形是結(jié)構(gòu)化數(shù)據(jù),藍(lán)色圖形是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖片和視頻)。可以很明顯的發(fā)現(xiàn),圖片和視頻的數(shù)量正在以指數(shù)級(jí)的速度瘋狂增長。

互聯(lián)網(wǎng)由文本和圖像組成。搜索文本相對(duì)簡單,但為了搜索圖像,算法需要知道圖像包括的內(nèi)容。在很長的一段時(shí)間內(nèi),人類沒有足夠的技術(shù)來理解圖像和視頻的內(nèi)容,只能依靠人工標(biāo)注來獲取圖像或視頻的描述。怎樣能讓計(jì)算機(jī)更好地理解這些圖像信息,便是當(dāng)今計(jì)算機(jī)技術(shù)面臨的一大挑戰(zhàn)。為了充分利用圖像或視頻數(shù)據(jù),需要讓計(jì)算機(jī)“查看”圖像或視頻,并理解內(nèi)容。

3.什么是計(jì)算機(jī)視覺

計(jì)算機(jī)視覺是AI領(lǐng)域的一個(gè)重要分支,簡單來說,它要解決的問題就是:讓計(jì)算機(jī)看懂圖像或者視頻里的內(nèi)容。譬如:圖片里的寵物是貓還是狗?圖片里的人是老張還是老王?視頻里的人在做什么事情?更進(jìn)一步的說,計(jì)算機(jī)視覺就是指用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等,并進(jìn)一步做圖形處理,得到更適合人眼觀察或傳送給儀器檢測(cè)的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取高層次信息的AI系統(tǒng)。從工程的角度來看,它尋求利用自動(dòng)化系統(tǒng)模仿人類視覺系統(tǒng)來完成任務(wù)。計(jì)算機(jī)視覺的最終目標(biāo)是使計(jì)算機(jī)能像人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。但能真正實(shí)現(xiàn)計(jì)算機(jī)能夠通過攝像機(jī)感知這個(gè)世界卻是非常之難,因?yàn)殡m說攝像機(jī)拍攝的圖像和我們平時(shí)所見是一樣的,但對(duì)于計(jì)算機(jī)來說,任何圖像都只是像素值的排列組合,是一堆死板的數(shù)字。怎樣讓計(jì)算機(jī)從這些死板的數(shù)字里面讀取到有意義的視覺線索,是計(jì)算機(jī)視覺應(yīng)該解決的問題。

4.計(jì)算機(jī)視覺的基本原理

用過相機(jī)或手機(jī)的都知道,計(jì)算機(jī)擅長拍出有驚人保真度和細(xì)節(jié)的照片,從某種程度上來說,計(jì)算機(jī)的人工“視覺”比人類與生自來的視覺能力強(qiáng)多了。但正像我們平日所說的“聽見不等于聽懂”一樣,“看見”也不等于“看懂”,要想讓計(jì)算機(jī)真正地“看懂”圖像,那就不是一件簡單的事情了。圖像是一個(gè)大像素網(wǎng)格,每個(gè)像素有顏色,顏色是三種基色的組合:紅,綠,藍(lán)。通過組合三種顏色的強(qiáng)度——即叫做RGB值,我們可以得到任何顏色。最簡單的、最適合拿來入門的計(jì)算機(jī)視覺算法是:跟蹤一個(gè)有顏色的物體,譬如一個(gè)粉色的球,我們首先記下球的顏色,保存最中心像素的RGB值,然后給程序喂入圖像,讓程序找最接近這個(gè)顏色的像素。算法可以從左上角開始,檢查每個(gè)像素,計(jì)算和目標(biāo)顏色的差異。檢查了每個(gè)像素后,最貼近的一部分像素,很可能就是球所在的像素。這個(gè)算法并不限制于在這單張圖片上運(yùn)行,我們可以把算法運(yùn)行在視頻的每一幀圖像上,跟蹤球的位置。當(dāng)然,因?yàn)楣饩€、陰影和其他因素的影響,球的顏色會(huì)有變化,不會(huì)和我們存的RGB值完全一樣,但會(huì)很接近。不過在一些極端的情況下,譬如晚上進(jìn)行足球比賽,追蹤效果就可能會(huì)非常差;而且假如其中一隊(duì)的球衣顏色和球的顏色一樣,算法就完全“暈了”。故此,除非環(huán)境可以嚴(yán)格控制,這類顏色跟蹤算法極少會(huì)被真正投入使用。而如今更多使用的計(jì)算機(jī)視覺算法一般都會(huì)涉及“深度學(xué)習(xí)”(Deep Learning)的方法和技術(shù),其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)因?yàn)槠鋬?yōu)越的性能,使用最為廣泛。由于“深度學(xué)習(xí)”所涉及的知識(shí)過于廣泛,本篇就不對(duì)其進(jìn)行更詳細(xì)的敘述了。如想了解更多有關(guān)“深度學(xué)習(xí)”的相關(guān)知識(shí),不妨看下人工智能入門課程——《英特爾® OpenVINO™工具套件初級(jí)課程》。它從人工智能的基本概念開始,介紹AI與視覺應(yīng)用的相關(guān)知識(shí),幫助用戶快速理解英特爾®OpenVINO™工具套件的基本概念及應(yīng)用場景。整個(gè)課程包括了視頻的處理,深度學(xué)習(xí)的相關(guān)知識(shí),AI應(yīng)用的推理加速,以及英特爾®OpenVINO™工具套件的Demo演示,由淺入深,一步一步帶你掌握深度學(xué)習(xí)。

5.計(jì)算機(jī)視覺的典型任務(wù)

圖像分類

圖像分類是根據(jù)圖像的語義信息對(duì)不同類別圖像進(jìn)行區(qū)分,是計(jì)算機(jī)視覺的核心,是物體檢測(cè)、圖像分割、物體跟蹤、行為分析、面部識(shí)別等其他高層次視覺任務(wù)的基礎(chǔ)。比如下圖,通過圖像分類,計(jì)算機(jī)識(shí)別到圖像中有人(person)、樹(tree)、草地(grass)、天空(sky)。

圖像分類在很多領(lǐng)域都有著廣泛的應(yīng)用,如:安防領(lǐng)域的面部識(shí)別和智能視頻分析等,交通領(lǐng)域的交通場景識(shí)別,互聯(lián)網(wǎng)領(lǐng)域基于內(nèi)容的圖像檢索和相冊(cè)自動(dòng)歸類,醫(yī)學(xué)領(lǐng)域的圖像識(shí)別等。

目標(biāo)檢測(cè)

目標(biāo)檢測(cè)任務(wù)的目標(biāo)是給定一張圖像或是一個(gè)視頻幀,讓計(jì)算機(jī)找出其中所有目標(biāo)的位置,并給出每個(gè)目標(biāo)的具體類別。如下圖,以識(shí)別和檢測(cè)人為例,用邊框標(biāo)記圖像中所有人的位置。

而在多類別目標(biāo)檢測(cè)中,一般使用不同顏色的邊框?qū)z測(cè)到的不同物體的位置進(jìn)行標(biāo)記,如下圖所示。

語義分割

語義分割是計(jì)算機(jī)視覺中的基本任務(wù),在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別。它將整個(gè)圖像分成像素組,然后對(duì)像素組進(jìn)行標(biāo)記和分類。比如,我們可能需要區(qū)分圖像中屬于汽車的所有像素,并把這些像素涂成藍(lán)色。如下圖,把圖像分為人(紅色)、樹木(深綠)、草地(淺綠)、天空(藍(lán)色)標(biāo)簽。

實(shí)例分割實(shí)例分割是目標(biāo)檢測(cè)和語義分割的結(jié)合,在圖像中將目標(biāo)檢測(cè)出來(目標(biāo)檢測(cè)),然后對(duì)每個(gè)像素打上標(biāo)簽(語義分割)。對(duì)比上圖、下圖可見,如以人為目標(biāo),語義分割不區(qū)分屬于相同類別的不同實(shí)例(所有人都標(biāo)為紅色),實(shí)例分割區(qū)分同類的不同實(shí)例(使用不同顏色區(qū)分不同的人)。

目標(biāo)追蹤目標(biāo)跟蹤是指對(duì)圖像序列中的運(yùn)動(dòng)目標(biāo)進(jìn)行檢測(cè)、提取、識(shí)別和跟蹤,獲得運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)參數(shù),進(jìn)行處理與分析,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的行為理解,以完成更高一級(jí)的檢測(cè)任務(wù)。

6.計(jì)算機(jī)視覺在日常生活中的應(yīng)用場景

計(jì)算機(jī)視覺的應(yīng)用場景非常廣泛,下面列舉幾個(gè)生活中常見的應(yīng)用場景。·門禁、支付寶上的面部識(shí)別

停車場、收費(fèi)站的車牌識(shí)別

?上傳視頻到網(wǎng)站或APP時(shí)的風(fēng)險(xiǎn)識(shí)別

抖音等APP上的各種自拍道具(需要先識(shí)別出人臉的位置)

7.計(jì)算機(jī)視覺面臨的挑戰(zhàn)

現(xiàn)下,計(jì)算機(jī)視覺技術(shù)發(fā)展迅速,已具備初步的產(chǎn)業(yè)規(guī)模。未來計(jì)算機(jī)視覺技術(shù)的發(fā)展主要面臨以下挑戰(zhàn):一是怎樣在不同的應(yīng)用領(lǐng)域和其他技術(shù)更好的結(jié)合,計(jì)算機(jī)視覺在解決某些問題時(shí)可以廣泛利用大數(shù)據(jù),已經(jīng)逐漸成熟并且可以超過人類,而在某些問題上卻無法達(dá)到很高的精度;二是怎樣降低計(jì)算機(jī)視覺算法的開發(fā)時(shí)間和人力成本,現(xiàn)下計(jì)算機(jī)視覺算法需要大量的數(shù)據(jù)與人工標(biāo)注,需要較長的研發(fā)周期以達(dá)到應(yīng)用領(lǐng)域所要求的精度與耗時(shí);三是怎樣加快新型算法的設(shè)計(jì)開發(fā),伴隨新的成像硬件與AI芯片的出現(xiàn),針對(duì)不同芯片與數(shù)據(jù)采集設(shè)備的計(jì)算機(jī)視覺算法的設(shè)計(jì)與開發(fā)也是挑戰(zhàn)之一。

8.結(jié)語

計(jì)算機(jī)視覺作為AI細(xì)分領(lǐng)域中發(fā)展最快、應(yīng)用最為廣泛的技術(shù)之一,它如同AI的“眼睛”,為各行各業(yè)捕捉和分析更多信息。伴隨算法的更迭、硬件算力的升級(jí)、數(shù)據(jù)的大爆發(fā),以及未來5G技術(shù)發(fā)展帶來的高速網(wǎng)絡(luò),計(jì)算機(jī)視覺在應(yīng)用方面也將會(huì)有更加廣闊的發(fā)展空間,讓我們拭目以待吧!

猜你喜歡