專屬客服號
微信訂閱號
全面提升數(shù)據(jù)價值
賦能業(yè)務(wù)提質(zhì)增效
【相關(guān)專題 | 【計算機(jī)視覺】 計算機(jī)視覺技術(shù)行業(yè)現(xiàn)狀、市場分析與發(fā)展前景】
計算機(jī)視覺是人工智能的一個重要方面,通過精準(zhǔn)的實現(xiàn)圖片識別等可以擴(kuò)展計算機(jī)的使用范圍。
計算機(jī)技術(shù)的幾項技術(shù)
1、圖像分類
給定一組各自被標(biāo)記為單一類別的圖像,我們對一組新的測試圖像的類別進(jìn)行預(yù)測,并測量預(yù)測的準(zhǔn)確性結(jié)果,這就是圖像分類問題。
計算機(jī)視覺研究人員提出了一種基于數(shù)據(jù)驅(qū)動的方法。 該算法并不是直接在代碼中指定每個感興趣的圖像類別,而是為計算機(jī)每個圖像類別都提供許多示例,然后設(shè)計一個學(xué)習(xí)算法,查看這些示例并學(xué)習(xí)每個類別的視覺外觀。也就是說,首先積累一個帶有標(biāo)記圖像的訓(xùn)練集,然后將其輸入到計算機(jī)中,由計算機(jī)來處理這些數(shù)據(jù)。
目前較為流行的圖像分類架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(CNN)——將圖像送入網(wǎng)絡(luò),然后網(wǎng)絡(luò)對圖像數(shù)據(jù)進(jìn)行分類。卷積神經(jīng)網(wǎng)絡(luò)從輸入“掃描儀”開始,該輸入“掃描儀”也不會一次性解析所有的訓(xùn)練數(shù)據(jù)。比如輸入一個大小為 100*100 的圖像,你也不需要一個有 10,000 個節(jié)點(diǎn)的網(wǎng)絡(luò)層。相反,你只需要創(chuàng)建一個大小為 10 *10 的掃描輸入層,掃描圖像的前 10*10 個像素。然后,掃描儀向右移動一個像素,再掃描下一個 10 *10 的像素,這就是滑動窗口。
輸入數(shù)據(jù)被送入卷積層,而不是普通層。每個節(jié)點(diǎn)只需要處理離自己最近的鄰近節(jié)點(diǎn),卷積層也隨著掃描的深入而趨于收縮。除了卷積層之外,通常還會有池化層。池化是過濾細(xì)節(jié)的一種方法,常見的池化技術(shù)是最大池化,它用大小為 2*2 的矩陣傳遞擁有最多特定屬性的像素。
2、對象檢測
識別圖像中的對象這一任務(wù),通常會涉及到為各個對象輸出邊界框和標(biāo)簽。這不同于分類/定位任務(wù)——對很多對象進(jìn)行分類和定位,而不僅僅是對個主體對象進(jìn)行分類和定位。在對象檢測中,你只有 2 個對象分類類別,即對象邊界框和非對象邊界框。例如,在汽車檢測中,你必須使用邊界框檢測所給定圖像中的所有汽車。
神經(jīng)網(wǎng)絡(luò)研究人員使用區(qū)域(region)這一概念,這樣我們就會找到可能包含對象的“斑點(diǎn)”圖像區(qū)域,這樣運(yùn)行速度就會大大提高。第一種模型是基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)( R-CNN ),其算法原理如下:
在 R-CNN 中,首先使用選擇性搜索算法掃描輸入圖像,尋找其中的可能對象,從而生成大約 2,000 個區(qū)域建議;
然后,在這些區(qū)域建議上運(yùn)行一個 卷積神網(wǎng)絡(luò);
最后,將每個卷積神經(jīng)網(wǎng)絡(luò)的輸出傳給支持向量機(jī)( SVM ),使用一個線性回歸收緊對象的邊界框。
3、目標(biāo)跟蹤
目標(biāo)跟蹤,是指在特定場景跟蹤某一個或多個特定感興趣對象的過程。傳統(tǒng)的應(yīng)用就是視頻和真實世界的交互,在檢測到初始對象之后進(jìn)行觀察。現(xiàn)在,目標(biāo)跟蹤在無人駕駛領(lǐng)域也很重要,例如 Uber 和特斯拉等公司的無人駕駛。
根據(jù)觀察模型,目標(biāo)跟蹤算法可分成 2 類:生成算法和判別算法。
生成算法使用生成模型來描述表觀特征,并將重建誤差最小化來搜索目標(biāo),如主成分分析算法( PCA );
判別算法用來區(qū)分物體和背景,其性能更穩(wěn)健,并逐漸成為跟蹤對象的主要手段(判別算法也稱為 Tracking-by-Detection ,深度學(xué)習(xí)也屬于這一范疇)。
4、語義分割
計算機(jī)視覺的核心是分割,它將整個圖像分成一個個像素組,然后對其進(jìn)行標(biāo)記和分類。特別地,語義分割試圖在語義上理解圖像中每個像素的角色(比如,識別它是汽車、摩托車還是其他的類別)。除了識別人、道路、汽車、樹木等之外,我們還必須確定每個物體的邊界。因此,與分類不同,我們需要用模型對密集的像素進(jìn)行預(yù)測。
卷積神經(jīng)網(wǎng)絡(luò)在分割任務(wù)上取得了巨大成功。目前的語義分割研究都依賴于完全卷積網(wǎng)絡(luò),如空洞卷積 ( Dilated Convolutions ),DeepLab 和 RefineNet 。
5、實例分割
除了語義分割之外,實例分割將不同類型的實例進(jìn)行分類,比如用 5 種不同顏色來標(biāo)記 5 輛汽車。分類任務(wù)通常來說就是識別出包含單個對象的圖像是什么,但在分割實例時,我們需要執(zhí)行更復(fù)雜的任務(wù)。我們會看到多個重疊物體和不同背景的復(fù)雜景象,我們不僅需要將這些不同的對象進(jìn)行分類,而且還要確定對象的邊界、差異和彼此之間的關(guān)系!
Mask R-CNN 通過向 Faster R-CNN 添加一個分支來進(jìn)行像素級分割,該分支輸出一個二進(jìn)制掩碼,該掩碼表示給定像素是否為目標(biāo)對象的一部分:該分支是基于卷積神經(jīng)網(wǎng)絡(luò)特征映射的全卷積網(wǎng)絡(luò)。將給定的卷積神經(jīng)網(wǎng)絡(luò)特征映射作為輸入,輸出為一個矩陣,其中像素屬于該對象的所有位置用 1 表示,其他位置則用 0 表示,這就是二進(jìn)制掩碼。一旦生成這些掩碼, Mask R-CNN 將 RoIAlign 與來自 Faster R-CNN 的分類和邊界框相結(jié)合,以便進(jìn)行精確的分割。
計算機(jī)視覺技術(shù)的應(yīng)用場景
1,人臉識別
人臉識別是人工智能視覺與圖像領(lǐng)域中最熱門的應(yīng)用,人臉識別技術(shù)目前已經(jīng)廣泛應(yīng)用于金融、司法、軍隊、公安、邊檢、政府、航天、電力、工廠、教育、醫(yī)療等行業(yè)。據(jù)業(yè)內(nèi)人士分析,我國的人臉識別產(chǎn)業(yè)的需求旺盛,需求推動導(dǎo)致企業(yè)敢于投入資金。目前,該技術(shù)已具備大規(guī)模商用的條件,未來三到五年將高速增長。而今年,這一技術(shù)有望在金融與安防領(lǐng)域迎來大爆發(fā)。
2,圖片識別分析
靜態(tài)圖片識別應(yīng)用熱度在視覺與圖像領(lǐng)域中排名第三。但是人工智能技術(shù)單純用于圖片識別分析的應(yīng)用企業(yè)數(shù)量并不如預(yù)想的多,主要包括的原因有:(1)、目前視頻監(jiān)控方向的盈利空間大,眾多企業(yè)的注意力都放在了視頻監(jiān)控領(lǐng)域;(2)、人臉識別屬于圖片識別的一個應(yīng)用場景,做人臉識別的大多數(shù)企業(yè)同時也在提供圖片識別服務(wù),但是銷售效果不佳,主要贏利點(diǎn)還在于人臉識別;(3)、圖片識別大多商用場景還屬于藍(lán)海,潛力有待開發(fā);(4)、圖片數(shù)據(jù)大多被大型互聯(lián)網(wǎng)企業(yè)所掌握,創(chuàng)業(yè)公司數(shù)據(jù)資源稀少。
3,駕駛輔助和智能駕駛
隨著汽車的普及,汽車已經(jīng)成為人工智能技術(shù)非常大的應(yīng)用投放方向,但就目前來說,想要完全實現(xiàn)自動駕駛和無人駕駛,距離技術(shù)成熟還有一段路要走。
不過利用人工智能技術(shù),汽車的駕駛輔助的功能及應(yīng)用越來越多,這些應(yīng)用多半是基于計算機(jī)視覺和圖像處理技術(shù)來實現(xiàn)。
4,三維圖像視覺
三維圖像視覺主要是對于三維物體的識別,應(yīng)用于三維視覺建模,三維測繪等領(lǐng)域。
5,工業(yè)視覺檢測
機(jī)器視覺可以快速獲取大量信息,并進(jìn)行自動處理。在自動化生產(chǎn)過程中,人們將機(jī)器視覺系統(tǒng)廣泛地用于工況監(jiān)視、成品檢驗和質(zhì)量控制等領(lǐng)域。機(jī)器視覺系統(tǒng)的特點(diǎn)是提高生產(chǎn)的柔性和自動化程度。運(yùn)用在一些危險工作環(huán)境或人工視覺難以滿足要求的場合;此外,在大批量工業(yè)生產(chǎn)過程中,機(jī)器視覺檢測可以大大提高生產(chǎn)效率和生產(chǎn)的自動化程度。
6,醫(yī)療影像診斷
醫(yī)療數(shù)據(jù)中有超過 90% 的數(shù)據(jù)來自醫(yī)療影像。醫(yī)療影像領(lǐng)域擁有孕育深度學(xué)習(xí)的海量數(shù)據(jù),醫(yī)療影像診斷可以輔助醫(yī)生,提升醫(yī)生的診斷的效率。
發(fā)展科技是在市場競爭中獲取先機(jī)的重要方式,但是將技術(shù)和市場競爭結(jié)合,尋找產(chǎn)品的切入點(diǎn),應(yīng)用場景和以后的發(fā)展方式也應(yīng)該得到重視。
本文由五度數(shù)科整理,轉(zhuǎn)載請標(biāo)明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)
評論