計算機(jī)視覺范疇范文
時間:2023-12-18 18:00:16
導(dǎo)語:如何才能寫好一篇計算機(jī)視覺范疇,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:計算機(jī);視覺技術(shù);交通工程
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-7712 (2014) 04-0000-01
一、引言
隨著科技的發(fā)展,計算機(jī)替代人的視覺與思維已經(jīng)成為現(xiàn)實,這也是計算機(jī)視覺的突出顯現(xiàn)。那么在物體圖像中識別物體并作進(jìn)一步處理,是客觀世界的主觀反應(yīng)。在數(shù)字化圖像中,我們可以探尋出較為固定的數(shù)字聯(lián)系,在物體特征搜集并處理時做到二次實現(xiàn)。這既是對物體特征的外在顯現(xiàn)與描繪,更是對其定量信息的標(biāo)定。從交通工程領(lǐng)域的角度來看,該種技術(shù)一般應(yīng)用在交管及安全方面。監(jiān)控交通流、識別車況及高速收費(fèi)都是屬于交通管理的范疇;而對交通重大事件的勘察及甄別則是交通安全所屬。在這個基礎(chǔ)上,筆者對計算機(jī)視覺系統(tǒng)的組成及原理進(jìn)行了分析,并形成視覺處理相關(guān)技術(shù)研究。
二、設(shè)計計算機(jī)視覺系統(tǒng)構(gòu)成
計算機(jī)視覺處理技術(shù)的應(yīng)用是建立在視覺系統(tǒng)的建立基礎(chǔ)上的。其內(nèi)部主要的構(gòu)成是計算機(jī)光源、光電轉(zhuǎn)換相關(guān)器件及圖像采集卡等元件。
(一)照明條件的設(shè)計。在測量物體的表征時,環(huán)境的創(chuàng)設(shè)是圖像分析處理的前提,其主要通過光線反射將影像投射到光電傳感器上。故而要想獲得清晰圖像離不開照明條件的選擇。在設(shè)計照明條件時,我們通常會視具體而不同處理,不過總的目標(biāo)是一定的,那就是要利于處理圖像及對其進(jìn)行提取分析。在照明條件的設(shè)定中,主動視覺系統(tǒng)結(jié)構(gòu)光是較為典型的范例。
(二)數(shù)據(jù)采集的處理。如今電耦合器件(CCD)中,攝像機(jī)及光電傳感器較為常見。它們輸出形成的影像均為模擬化的電子信號。在此基礎(chǔ)上,A模式與D模式的相互對接更能夠讓信號進(jìn)入計算機(jī)并達(dá)到數(shù)字處理標(biāo)準(zhǔn),最后再量化入計算機(jī)系統(tǒng)處理范圍??陀^物體色彩的不同,也就造就了色彩帶給人信息的差異。一般地黑白圖像是單色攝像機(jī)輸入的結(jié)果;彩色圖像則需要彩色相機(jī)來實現(xiàn)。其過程為:彩色模擬信號解碼為RGB單獨信號,并單獨A/D轉(zhuǎn)換,輸出后借助色彩查找表來顯示相應(yīng)色彩。每幅圖像一旦經(jīng)過數(shù)字處理就會形成點陣,并將n個信息濃縮于每點中。彩色獲得的圖像在16比特,而黑白所獲黑白灰圖像則僅有8比特。故而從信息采集量上來看,彩色的圖像采集分析更為繁復(fù)些。不過黑白跟灰度圖像也基本適應(yīng)于基礎(chǔ)信息的特征分析。相機(jī)數(shù)量及研究技法的角度,則有三個分類:“單目視覺”、“雙目”及“三目”立體視覺。
三、研究與應(yīng)用計算機(jī)視覺處理技術(shù)
從對圖像進(jìn)行編輯的過程可以看出,計算機(jī)視覺處理技術(shù)在物體成像及計算后會在灰度陣列中參雜無效信息群,使得信息存在遺失風(fēng)險。成像的噪聲在一定程度上也對獲取有效信息造成了干擾。故而,處理圖像必須要有前提地預(yù)設(shè)分析,還原圖像本相,從而消去噪音。邊緣增強(qiáng)在特定的圖像變化程度中,其起到的是對特征方法的削減?;诙祷?,分割圖像才能夠進(jìn)一步開展。對于物體的檢測多借助某個范圍來達(dá)到目的。識別和測算物體一般總是靠對特征的甄別來完成的。
四、分析處理三維物體技術(shù)
物體外輪擴(kuò)線及表面對應(yīng)位置的限定下,物體性質(zhì)的外在表現(xiàn)則是其形狀。三維物體從內(nèi)含性質(zhì)上來看也有體現(xiàn),如通過其內(nèi)含性質(zhì)所變現(xiàn)出來的表層構(gòu)造及邊界劃定等等。故而在確定圖像特征方面,物體的三維形態(tài)是最常用的處理技術(shù)。檢測三維物體形狀及分析距離從計算機(jī)視覺技術(shù)角度來看,渠道很多,其原理主要是借助光源特性在圖像輸入時的顯現(xiàn)來實現(xiàn)的。其類別有主動與被動兩類。借助自然光照來對圖像獲取并挖掘深入信息的技術(shù)叫做被動測距;主動測距的光源條件則是利用人為設(shè)置的,其信息也是圖像在經(jīng)過測算分析時得到的。被動測距的主要用途體現(xiàn)在軍工業(yè)保密及限制環(huán)境中,而普通建筑行業(yè)則主要利用主動測距。特別是較小尺寸物體的測算,以及擁有抗干擾及其他非接觸測距環(huán)境。
(一)主動測距技術(shù)。主動測距,主要是指光源條件是在人為創(chuàng)設(shè)環(huán)境中滿足的,且從景物外像得到相關(guān)點化信息,可以適當(dāng)顯示圖像大概并進(jìn)行初步分析處理,以對計算適應(yīng)功率及信息測算程度形成水平提高。從技術(shù)種類上說,主動測距技術(shù)可分為雷達(dá)取像、幾何光學(xué)聚焦、圖像干擾及衍射等。除了結(jié)構(gòu)光法外的測量方法均為基于物理成像,并搜集所成圖像,并得到特殊物理特征圖像。從不同的研究環(huán)境到條件所涉,以結(jié)構(gòu)光法測量作為主要技術(shù)的工程需求較為普遍,其原理為:首先在光源的設(shè)計上由人為來進(jìn)行環(huán)境考慮測算,再從其中獲取較為全面的離散點化信息。在離散處理后,此類圖像已經(jīng)形成了較多的物體真是特征表象。在此基礎(chǔ)上,信息需要不斷簡化與甄別、壓縮。如果分析整個物體特征信息鏈,則后期主要體現(xiàn)在對于數(shù)據(jù)的簡化分析。如今人們已經(jīng)把研究的目光轉(zhuǎn)向了結(jié)構(gòu)光測量方法的應(yīng)用,體現(xiàn)在物體形狀檢測等方面。
(二)被動測距技術(shù)。被動測距,對光照條件的選擇具有局限性,其主要通過對于自然光的覆蓋得以實現(xiàn)。它在圖像原始信息處理及分析匹配方面技術(shù)指向較為突出。也通過此三維物體之形狀及周圍環(huán)境深度均被顯露。在圖像原始信息基礎(chǔ)上的應(yīng)用計算,其與結(jié)構(gòu)光等相比繁雜程度較高。分析物體三維特性,著重從立體視覺內(nèi)涵入手,適應(yīng)物體自身特點而存在。不過相對來說獲得圖像特征才是其適應(yīng)匹配的條件保障。點、線、區(qū)域及結(jié)構(gòu)紋理等是物象特征的主體形式。其中物特較為基礎(chǔ)與原始的特征是前兩個特征,同時它們也是其他相關(guān)表征的前提。計算機(jī)系統(tǒng)技術(shù)測量基本原理為對攝像機(jī)進(jìn)行構(gòu)建分析,并對其圖像表征進(jìn)行特征匹配,以得到圖像不同區(qū)間的視覺差異。
五、結(jié)束語
通過對計算機(jī)視覺技術(shù)的研究,悉知其主要的應(yīng)用領(lǐng)域及技術(shù)組成。在系統(tǒng)使用的基礎(chǔ)上深入設(shè)計,對系統(tǒng)主要構(gòu)成環(huán)節(jié)進(jìn)行分析。從而將三維復(fù)雜形態(tài)原理、算法及測量理論上升到實際應(yīng)用。隨著社會對于計算機(jī)的倚賴程度增加,相信該技術(shù)在建筑或者其他領(lǐng)域會有更加深入的研究及應(yīng)用。
參考文獻(xiàn):
[1]段里仁.智能交通系境在我國道路空通管理中的應(yīng)用[J].北方工業(yè)時報,2012(06).
[2]王豐元.計算機(jī)視覺在建筑區(qū)間的應(yīng)用實例分析[J].河北電力學(xué)報,2011(04).
篇2
【關(guān)鍵詞】精密播種機(jī);監(jiān)控系統(tǒng)
近些年來,電子工業(yè)迅速發(fā)展,機(jī)電結(jié)合的各種排種器監(jiān)控系統(tǒng)也趨于成熟。農(nóng)業(yè)生產(chǎn)中的最基礎(chǔ)環(huán)節(jié)是播種,也是豐產(chǎn)豐收的重要保證。精密播種機(jī)隨著播種技術(shù)的發(fā)展己經(jīng)被廣泛應(yīng)用于現(xiàn)代農(nóng)業(yè)播種。機(jī)械式播種機(jī)是現(xiàn)今我國最長使用的精密播種機(jī),在播種作業(yè)過程中存在不同程度的漏播重播的問題造成農(nóng)作物大量減產(chǎn)現(xiàn)象,其原因是在播種過程中全封閉特點,對精密播種機(jī)監(jiān)測系統(tǒng)進(jìn)行設(shè)計與研究將會提高精密播種的質(zhì)量,這對實現(xiàn)現(xiàn)代化智能農(nóng)業(yè)具有極其深遠(yuǎn)的意義。
1.國內(nèi)外田間播種監(jiān)控系統(tǒng)的研究成果
1.1國外監(jiān)控系統(tǒng)研究成果
在播種監(jiān)控這個方面,國外對其的研究比較優(yōu)先, 發(fā)達(dá)國家加快了農(nóng)業(yè)裝備電子信息應(yīng)用技術(shù)在農(nóng)業(yè)機(jī)械的播種與鎮(zhèn)壓的電子監(jiān)視播深控制等方面的研究。在20世紀(jì)70年代中期他們便開始對如何加快農(nóng)業(yè)裝備電子信息應(yīng)用技術(shù)的問題進(jìn)行研究,機(jī)械式報替器、機(jī)電信號式報替器和電子儀器是國外精播機(jī)上采用的監(jiān)測和報警裝里的3種類型, 這些監(jiān)測系統(tǒng)實現(xiàn)播種故障的報警是通過對不同種類的排種器工作狀況進(jìn)行監(jiān)控,與此同時,法國、美國、前蘇聯(lián)也為此都相繼做了大量的實驗。隨著高科技的發(fā)展,一些先進(jìn)技術(shù)已經(jīng)進(jìn)入監(jiān)控系統(tǒng)的研究范疇之內(nèi),比如將GPS技術(shù)應(yīng)用于監(jiān)控系統(tǒng)。另外一些先進(jìn)的監(jiān)控系統(tǒng)還具備對各種播種參數(shù)進(jìn)行運(yùn)算顯示的功能。
1.2國內(nèi)監(jiān)控系統(tǒng)研究成果
隨著對國外不同類型精密播種機(jī)的不斷引進(jìn)吸收和我國對精密播種機(jī)監(jiān)測系統(tǒng)研究投入的不斷加大,我國精密播種機(jī)的研制工作在精密播種機(jī)監(jiān)測系統(tǒng)方面的研究方面取得了極大的突破,由我國獨立生產(chǎn)的新式播種機(jī)及新式播種機(jī)的監(jiān)測系統(tǒng)不斷涌現(xiàn)。國培光在1983年便開始對播種機(jī)的電子監(jiān)視和報警裝置進(jìn)行研究,并研制成可以實現(xiàn)故障的聲光報警和每行播種速度播種數(shù)量及播種面積等播種參數(shù)的數(shù)碼顯示功能的裝置,其原理是傳感器信號轉(zhuǎn)化電路。我國近年來根據(jù)單片機(jī)技術(shù),傳感器技術(shù)信息技術(shù)和虛擬儀器技術(shù)的發(fā)展,經(jīng)過進(jìn)一步研究,從而在精密播種機(jī)監(jiān)測系統(tǒng)的智能自動化上取得了巨大進(jìn)步。我國河北農(nóng)業(yè)大學(xué)的劉淑霞教授,經(jīng)過不斷研究實現(xiàn),利用MCS-51單片機(jī)對重播、漏播分別進(jìn)行不同方式的聲光報警以實現(xiàn)精密播種機(jī)排種性能的監(jiān)測,并可定時計算重播率、漏播率,并通過顯示器顯示需要的參數(shù)并打印下來。我國吉林工業(yè)大學(xué)的馬旭通過對計算機(jī)圖像處理技術(shù)的研究而建立了精密排種器性能檢測系統(tǒng)。該系統(tǒng)采用圖像增強(qiáng)、平滑、銳化及分割等預(yù)處理方法,來對種子動態(tài)圖像進(jìn)行詳細(xì)分析,從而到達(dá)有效提高圖像質(zhì)量的作用,并為了明確檢測精密排種器重播、漏播及合格指數(shù)的方法,從而提出了根據(jù)種子面積和種子間距來檢測排種器性能的特征提取方式,滿足了我國精密排種器性能檢測的要求。
2.監(jiān)控系統(tǒng)的工作原理
2.1早期人工測量方法
我國在20世紀(jì)60年代時播種機(jī)試驗臺設(shè)備較少,有的僅是利用黃油作為粘膠劑來固定下落種子且為仿制前蘇聯(lián)的新帆布帶式排種器試驗臺。吸嘴裝置被安在帆布帶轉(zhuǎn)彎處以便于吸取種子,這種設(shè)計的目的是為了減少粘膠消耗和簡化清種工作。這種在粘膠帶上采用人工測量播種性能的方法雖然檢測比較直觀,有可以在一定程度上反映種子的性能優(yōu)點,但存在由于種子污染嚴(yán)重而無法回收重復(fù)利用,且工作條件較差,測量取樣極其不方便的缺點。隨著新技術(shù)的不斷涌現(xiàn),人工測量的方法已經(jīng)別其他方法淘汰。
2.2傳感器檢測法
現(xiàn)代的光電傳感器工作在播種檢測上應(yīng)用較廣泛。通常在播種機(jī)的排種口裝有光電傳感器,光電傳感器便在播種機(jī)排出一粒種子后便產(chǎn)生一個信號,然后經(jīng)過放大整形送給單片機(jī),單片機(jī)通過該信號可以知道有沒有排出種子。在檢測到該信號后,為保證每穴一粒的播種的質(zhì)量,單片機(jī)便停止振動,若單片機(jī)未檢測到有種子的排出就會繼續(xù)振動,直到排出一粒種子。窩眼輪式、離心式和電磁振動式都是基于這種原理形成的。傳感器檢測最適用于檢測漏播,但其缺點在于重播的檢測準(zhǔn)確性極差。
2.3利用計算機(jī)處理圖像技術(shù)
計算機(jī)圖像處理是利用攝像頭每間隔一定的時間采集一幅圖像后,通過采集卡把圖像傳送給計算機(jī),再通過計算機(jī)對圖像進(jìn)行識別處理的原理,達(dá)到根據(jù)圖像中的種子特征來判斷是否出現(xiàn)漏播。從而在發(fā)生漏播時,計算機(jī)會進(jìn)行報警和相關(guān)處理。分為中國農(nóng)業(yè)機(jī)械化科學(xué)研究院的王紅永研究的圖像處理與機(jī)器人相結(jié)合的技術(shù)和通過對CCD攝像機(jī)的拍攝區(qū)域進(jìn)行圖像分割,提取種子特征,從而用計算機(jī)視覺技術(shù)來處理運(yùn)動的物體兩種方法。利用計算機(jī)視覺技術(shù)來處理運(yùn)動的物體的原理是對圖像進(jìn)行濾波、增強(qiáng)、銳化、分割處理,從而確定根據(jù)種子邊緣、面積及種子之間的距離來檢測排種器的性能。計算機(jī)圖像處理系統(tǒng)雖然有裝置檢測效果好的優(yōu)點,但是存在結(jié)構(gòu)復(fù)雜的缺點。
3.監(jiān)控系統(tǒng)的發(fā)展趨勢
根據(jù)目前國內(nèi)外使用精密播種機(jī)的趨勢可知,現(xiàn)有的精密播種機(jī)的性能還不夠完事,不能完全滿足農(nóng)業(yè)上的要求,所以監(jiān)測技術(shù)的研究仍要繼續(xù)。監(jiān)控系統(tǒng)發(fā)展的重要的一環(huán)和精播機(jī)監(jiān)控系統(tǒng)發(fā)展的第一走向是提高監(jiān)控系統(tǒng)靈敏度?,F(xiàn)在很多研究是以微型單片機(jī)為基礎(chǔ)來進(jìn)行控制監(jiān)控裝置。單片機(jī)應(yīng)該在程序設(shè)置的時間上實現(xiàn)對監(jiān)視傳感器、轉(zhuǎn)換線路和報警系統(tǒng)的監(jiān)控來提高報警靈敏度。應(yīng)該研發(fā)在監(jiān)控系統(tǒng)檢測到有故障造成不能正常播種是報警系統(tǒng)可以瞬時啟動,同時啟動補(bǔ)償系統(tǒng)代替出故障的部件,從而繼續(xù)播種的系統(tǒng)。這樣就可以避免漏種現(xiàn)象的發(fā)生。因此若想要減少漏種造成的損失,提高播種機(jī)的工作質(zhì)量,以達(dá)到進(jìn)一步地提高自動化、智能化水平的目的,可以從研制自動補(bǔ)償式監(jiān)控系統(tǒng)入手。
結(jié)語
隨著精密播種技術(shù)的迅速發(fā)展,監(jiān)控裝置也在完善。監(jiān)控系統(tǒng)性能的好壞對播種的質(zhì)量有特別大的影響,研究精播機(jī)監(jiān)控系統(tǒng)發(fā)展的重要方法是提高監(jiān)控系統(tǒng)的靈敏度和研究自動補(bǔ)償式監(jiān)控系統(tǒng)。其中,提高監(jiān)控系統(tǒng)靈敏度是精播機(jī)監(jiān)控系統(tǒng)的發(fā)展方向。采用自動補(bǔ)式監(jiān)控系統(tǒng)來加快自動補(bǔ)償式監(jiān)控系統(tǒng)的研制,不僅可節(jié)約社會勞動力,減輕勞動強(qiáng)度,還可以大大減少漏種造成的損失,以達(dá)到極大提高播種機(jī)的工作質(zhì)量,進(jìn)一步提高系統(tǒng)的自動化和智能化的目的。
參考文獻(xiàn)
篇3
【關(guān)鍵詞】 計算機(jī)技術(shù) 應(yīng)用狀況 改革策略 知識更新
前言:計算機(jī)在我國社會不同產(chǎn)業(yè)領(lǐng)域中的應(yīng)用指導(dǎo)地位非凡,包括人們?nèi)粘I?、學(xué)習(xí)活動等,幾乎無法全然脫離計算機(jī)技術(shù)而獨自運(yùn)行。我國想要在日后激烈的國際競爭范疇內(nèi)拔得頭籌,就必須想方設(shè)法革新調(diào)整各項技術(shù)項目獨特的計算機(jī)指導(dǎo)單元。由此看來,進(jìn)行我國計算機(jī)技術(shù)改革應(yīng)用方案調(diào)整,絕對是迎合時展步伐的最佳途徑,理當(dāng)引起相關(guān)管制主體的高度關(guān)注。
一、計算機(jī)技術(shù)在我國人工智能領(lǐng)域中的改革應(yīng)用
這里深入強(qiáng)調(diào)的人工智能技術(shù),主張生動化模擬并延伸既有人工智能項目結(jié)構(gòu),確保內(nèi)部工序得到有機(jī)規(guī)整和緊密銜接,可以說是計算機(jī)技術(shù)體系單元中的一類分支,其核心動機(jī)在于開創(chuàng)一類全新樣式的智能機(jī)械設(shè)備,能夠順勢發(fā)揮語言、圖像精確化識別和靈活回應(yīng)功能。可以說此類科學(xué)挑戰(zhàn)性極高,從事此類工作的人員必須熟練掌握計算機(jī)、哲學(xué)知識內(nèi)容,能夠針對計算機(jī)視覺效應(yīng)分析并預(yù)測相應(yīng)結(jié)果。歸結(jié)來講,就是利用機(jī)器完成人類智能操控范疇之下的一切復(fù)雜類事務(wù),但是此類科學(xué)規(guī)范指標(biāo),會隨著時代推移自然地朝著更加富有挑戰(zhàn)性地方向過渡延展,這一切結(jié)果與計算機(jī)科學(xué)技術(shù)進(jìn)步成果可以說有著深度關(guān)聯(lián)。因此,人工智能在計算機(jī)操作環(huán)境中得到更加深度的關(guān)注,尤其是在機(jī)器人、經(jīng)濟(jì)政治決策等仿真系統(tǒng)應(yīng)用環(huán)節(jié)中,發(fā)揮的輔功效一時之間將難以被輕易替代。
二、計算機(jī)操作程序在我國電子商務(wù)交接工序中的交織滲透
所謂電子商務(wù),就是說在國際范圍內(nèi)的商業(yè)貿(mào)易活動之中,因為計算機(jī)網(wǎng)絡(luò)技術(shù)的特殊支持引導(dǎo)作用,使得買賣人員可以不用親自會面就可輕松地完成交易任務(wù),至此過后消費(fèi)者網(wǎng)上自由購物等相關(guān)綜合服務(wù)體驗的參與訴求,會得到更加充足的迎合滿足。如今電子商務(wù)被順勢劃分出廣義和狹義兩個類型。其中,廣義形式的電子商務(wù),希望利用不同功能的電子儀器處理商務(wù)內(nèi)容,包括電話、電視、計算機(jī)網(wǎng)絡(luò)等現(xiàn)代化系統(tǒng)。而狹義角度下的電子商務(wù),比較傾向于實物商品合法性消費(fèi)等行為流程。尤其是在我國技術(shù)、經(jīng)濟(jì)全面發(fā)達(dá)的文化背景影響下,能夠快速掌握最新信息技術(shù)和商務(wù)規(guī)則的人員,便能夠完成以商品交換為中心的低成本、高效率改造任務(wù)?;诖?,電子商務(wù)內(nèi)部的計算機(jī)應(yīng)用改革成果也受到了更加嚴(yán)格的規(guī)范限定,開始透過系統(tǒng)觀點角度,進(jìn)行環(huán)境、人員、工具等要素自由銜接,希望借此令此類商務(wù)模式的生產(chǎn)力水準(zhǔn)得到盡情的舒展發(fā)揮。
三、計算機(jī)技術(shù)在辦公自動化空間中的全面革新與適用性調(diào)整
計算機(jī)內(nèi)部辦公程序輔助功效異常深刻,使得相關(guān)事業(yè)領(lǐng)域人員全面擺脫以往筆墨書寫行為弊端,形成自動形式的文件制備、傳遞以及儲備管理機(jī)制,對于企業(yè)行政效率提升作出突出的輔助貢獻(xiàn)。網(wǎng)絡(luò)時代的飛速發(fā)展,對于機(jī)關(guān)工作人員辦公軟件操作技能自然提出更加嚴(yán)格的規(guī)范掌控要求,這樣才能確保辦公自動化體系建設(shè)步伐的驟然提升結(jié)果。有關(guān)此類結(jié)構(gòu)的改革調(diào)整策略內(nèi)容具體表現(xiàn)為:
首先,信息來源上轉(zhuǎn)變,廣泛博覽。機(jī)關(guān)人員一定要跟上網(wǎng)絡(luò)發(fā)展的步伐,積極融入網(wǎng)絡(luò)發(fā)展之中,從只注重本地信息的小圈子里解脫出來,充分利用先進(jìn)的信息技術(shù)將分散于各種網(wǎng)絡(luò)的社會信息及時收集起來,整合成為有機(jī)的、完整的信息系統(tǒng),不斷拓展服務(wù)空間,有計劃、有步驟、高效率、高質(zhì)量地服務(wù)于各級領(lǐng)導(dǎo)。
其次,資料搜集上轉(zhuǎn)變,實現(xiàn)優(yōu)質(zhì)高效。辦公自動化的普及,機(jī)關(guān)人員在資料收集利用上有了更方便的條件、更廣闊的天地、更高效的手段。為適應(yīng)這一變化,機(jī)關(guān)人員一是要變單一為多元,二是變粘貼為儲存,三是變保存為整理。
結(jié)語:按照上述內(nèi)容陳述,如今電信行業(yè)在我國居民群眾生活領(lǐng)域中的核心引領(lǐng)地位日漸清晰,并且同步引領(lǐng)著數(shù)據(jù)庫理論、系統(tǒng)軟件技術(shù)等方面的進(jìn)步潮流,其間贏取的社會、經(jīng)濟(jì)效益自然不勝枚舉。需要額外加以強(qiáng)調(diào)的是,信息保護(hù)始終是數(shù)據(jù)通信處理過程中的核心支撐媒介,相關(guān)工作人員在今后計算機(jī)技術(shù)多元化改良設(shè)計環(huán)節(jié)中,應(yīng)該適當(dāng)針對此類細(xì)節(jié)加以關(guān)注和改造力度,避免日后當(dāng)中不安隱患擴(kuò)張,對我國社會主義多元化發(fā)展前景造成不必要的限制危機(jī)。
參 考 文 獻(xiàn)
[1]陳香生.計算機(jī)應(yīng)用技術(shù)對企業(yè)信息化的影響分析[J].中國商貿(mào),2011,26(09):66-78.
篇4
關(guān)鍵詞:人臉識別;圖像處理;模式識別;實時視頻;膚色分割
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)14-3410-02
Research on Face Recognition Based on Real-time Video
JIN Xin
(Department of Computer Technology and Application, Wuhan Institute of Technology, Wuhan 430074, China)
Abstract: Face recognition is a research focus in the fields of machine vision and pattern recognition, and it has broad application prospects. a novel method face recognition based on Real-time Video isproposed in this paper, This paper focuses on similarity calculation, Image binary-conversionand face recognition. The results indicate that the recognition performance of this system is good.
Key words: face recognition; Image Processing; pattern recognition; real-time video; complexion segmentation
建立一個準(zhǔn)確、穩(wěn)定、快速的人臉識別系統(tǒng),是模式識別和計算機(jī)視覺領(lǐng)域比較困難的問題,存在多方面的挑戰(zhàn)。首先,人臉在形狀、大小、顏色、質(zhì)地等方面都有很大差異,具有模式可變性;其次,人臉在不同的方向、角度、尺度展現(xiàn)出不同表像;再次,環(huán)境和設(shè)備造成的圖像質(zhì)量不穩(wěn)定,也增加了人臉識別的難度。今天,人臉識別的應(yīng)用背景已經(jīng)超出了單純的人臉識別系統(tǒng)的范疇,在數(shù)字視頻處理、視覺監(jiān)控等反面都有著重要的應(yīng)用價值。同時,人臉識別研究已經(jīng)涉及到了模式識別、數(shù)字圖像處理、計算機(jī)視覺、人體科學(xué)等多方面的內(nèi)容,具有重要的學(xué)術(shù)價值。
1 人臉識別系統(tǒng)設(shè)計
本系統(tǒng)研究的主要是針對簡單背景下的正面人臉識別,采用的是基于膚色的人臉識別方法。由于人臉的膚色與背景顏色具有很大的區(qū)別,在色彩空間的分布與背景色彩有差異而呈現(xiàn)出一定的色彩聚類性。本系統(tǒng)利用這一特點,利用膚色分割的方法把人臉區(qū)域與非人臉區(qū)域分割出來,最后定位出人臉。膚色分割的方法識別人臉的優(yōu)點是速度快而且對姿態(tài)不敏感,其缺點是難以區(qū)分類似膚色的非人臉區(qū)域,使用于特定的環(huán)境。
1.1 系統(tǒng)構(gòu)架
下面介紹系統(tǒng)的具體實現(xiàn)過程。系統(tǒng)的整個過程可以看作由圖像的輸入和預(yù)處理、膚色分割、人臉定位四個功能模塊組成。 圖1為系統(tǒng)結(jié)構(gòu)圖。
1.2 系統(tǒng)算法流程
圖2為系統(tǒng)算法流程圖。
2 系統(tǒng)實現(xiàn)
系統(tǒng)是在VC++6.0的環(huán)境下編程實現(xiàn)的。系統(tǒng)用到的關(guān)鍵技術(shù)包括圖像的讀取、色彩空間轉(zhuǎn)換、圖像建模、相似度的計算、圖像二值化、直方圖以及人臉區(qū)域的定位。下面介紹相似度計算,圖像二值化,以及人臉定位的編程實現(xiàn)過程。
2.1 相似度計算
相似度計算是本系統(tǒng)關(guān)鍵的技術(shù)之一。將輸入的圖像從RGB空間轉(zhuǎn)換到Y(jié)CbCr空間得到色度值(Cb,Cr) ,通過公式(1)計算像素點屬于膚色的概率。
(1)
得到每一個像素點的膚色概率值后,找到概率最大的點,每一像素點的概率除以最大像素點的概率,重新得到一個灰度值,以灰度值的大小來表征這個點屬于皮膚的概率,從而得到一個膚色相似度圖。相似度值大小表明該像素點屬于膚色區(qū)域概率大小,相似度值越大,則屬于膚色區(qū)域的可能性越大。主要有以下幾部分來實現(xiàn):1)構(gòu)造函數(shù);2)相似度數(shù)組的初始化;3)相似度的計算;4)找到最大的相似度值;5)已經(jīng)得到每個像素的相似度值除以最大的相似度值,得到新的相似度值。
2.2二值化
二值化是在相似度計算完成后才能進(jìn)行。圖像的二值化是為了能夠更好的分割出膚色區(qū)域,對于簡單背景的單人正面人臉圖像,在得到其膚色相似度圖后再進(jìn)行二值化,就能基本確定出人臉區(qū)域。將圖像二值化,需要確定一個閾值 作為分割的依據(jù)。以這個閾值 作為分類標(biāo)準(zhǔn)的典型的區(qū)域分類器為:
(2)
N(i,j)是經(jīng)過轉(zhuǎn)換后的圖中任意一點像素點的膚色概率值,通過與閾值T得比較后,劃分成了服色與非膚色點M(i,j),構(gòu)成二值圖像。其實現(xiàn)功能主要有:1)根據(jù)Fisher準(zhǔn)則確定動態(tài)閾值的大??;2)相似度值與動態(tài)閾值的比較,如大于閾值,則在二值化數(shù)組中該點的值為1,小于閾值的像素點在二值化數(shù)組中為0。流程圖如圖3。
2.3 標(biāo)記人臉區(qū)域
圖像分割是一種重要的圖像分析技術(shù)。在對圖像的研究和應(yīng)用中,人們往往只對圖像的某些部分感興趣。這些部分被稱為目標(biāo)或前景區(qū)域,其它部分稱為背景。要對目標(biāo)區(qū)域進(jìn)行辨別和分析,首先就要把它從背景中提取出來,在此基礎(chǔ)上才能進(jìn)一步對目標(biāo)進(jìn)行分析。在人臉識別中,圖像分割就是把人臉與背景區(qū)域分割出來,減少目標(biāo)的搜索區(qū)域。標(biāo)記人臉區(qū)域是通過掃描二值化數(shù)組來實現(xiàn)的。先在水平方向不變的情況下掃描縱軸,統(tǒng)計出1最多時的縱坐標(biāo)的值,并以其縱坐標(biāo)為中心,先往左掃描縱軸上為1的點,滿足某一條件認(rèn)為找到左邊框,跳出循環(huán),接著往右掃描縱軸上的為1的點,滿足某一條件,找到右邊框,跳出循環(huán)。然后在豎直方向不變的情況下掃描左右邊框范圍內(nèi)橫軸為1點,滿足條件,找到上邊框值,跳出循環(huán)。
3 實驗分析
通過對采集的50幅圖片的進(jìn)行實驗,表1為本系統(tǒng)的實驗數(shù)據(jù)。
實驗發(fā)現(xiàn)系統(tǒng)對光線均勻的圖片和背景簡單的圖片具有很高的識別成功率,而對有些光線較暗、光線太強(qiáng)和背景復(fù)雜的圖片不能進(jìn)行有效的識別,會產(chǎn)生誤檢或是漏檢的情況。造成這些結(jié)果的原因有:
1) 閾值大小的選取
在光線較暗的圖像中,如果閾值選取的過大,二值化后的圖像中屬于人臉的
域就會變小,識別時人臉光線較暗的部分就難以識別出來,造成只能識別出一部分的人臉。而在光線太強(qiáng)的圖像中,如果閾值取得太小,就會造成識別出來的人臉區(qū)域過大,把部分背景區(qū)域也識別為人臉區(qū)域。這一缺點可以通過光纖的補(bǔ)償來減少光線強(qiáng)弱對其的影響。
2) 背景的復(fù)雜性
在復(fù)雜背景圖像中,如果背景色彩與膚色很相近,就會導(dǎo)致二值化后的圖像中屬于人臉的區(qū)域變大,識別出來的人臉就會包括背景區(qū)域。更嚴(yán)重的是,圖像中不存在人臉,而識別出的結(jié)果卻仍然標(biāo)出了一塊與人臉色彩相近的區(qū)域,這就造成了誤檢。通過人臉模板匹配可以剔除誤檢區(qū)域,也可以剔除非人臉膚色區(qū)域。
3) 人臉的裝飾
人臉上的裝飾也是導(dǎo)致識別系統(tǒng)出錯的一個原因。人臉上的眼鏡、胡須、化妝等到會導(dǎo)致人臉膚色發(fā)生一定的變化,從而影響二值化圖像,導(dǎo)致識別成功率下降。
4 結(jié)束語
作為21世紀(jì)的一個朝陽產(chǎn)業(yè),人臉識別技術(shù)已經(jīng)開始進(jìn)入到人們生活的各個方面,本文介紹了基于實時視頻的人臉識別技術(shù),提出了一種解決方案,著重敘述了人臉識別和識別算法分析及應(yīng)用程序開發(fā)等,最后,結(jié)合具體圖像進(jìn)行了測試,結(jié)果表明效果良好。
參考文獻(xiàn):
[1] 方旭.基于BP神經(jīng)網(wǎng)絡(luò)人臉識別方法的研究與改進(jìn)[J].電腦知識與技術(shù),2011(4).
[2] 俞燕.基于特征的彈性圖匹配人臉識別算法改進(jìn)[J].計算機(jī)工程,2011(5).
[3] 張彩甜.人臉識別技術(shù)研究[J].電腦知識與技術(shù),2009(20).
[4] 楊穎嫻.基于PCA算法和小波包變換的人臉識別技術(shù)[J].微電子學(xué)與計算機(jī),2011(1).
篇5
人 工 智 能 作 業(yè)
擁抱人工智能
學(xué)院:
年級:
專業(yè):
學(xué)號:
姓名:
擁抱人工智能
摘 要:介紹了人工智能的含義以及模式識別的領(lǐng)域。
關(guān)鍵詞 人工智能;模式識別;AlphaGo
1 人工智能
1.1人工智能的含義
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能可以對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。總的說來,人工智能研究的一個主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。但不同的時代、不同的人對這種“復(fù)雜工作”的理解是不同的。AlphaGo的勝利,無人駕駛的成功,模式識別的突破性進(jìn)展,人工智能的的飛速發(fā)展一次又一次地挑動著我們的神經(jīng)。作為人工智能的核心,機(jī)器學(xué)習(xí)也在人工智能的大步發(fā)展中備受矚目,光輝無限。
我所理解的人工智能,就是如下五個定義。定義一:AI就是讓人覺得不可思議的計算機(jī)程序。定義二:AI就是與人類思考方式相似的計算機(jī)程序。定義三:AI就是與人類行為相似的計算機(jī)程序。定義四:AI就是會學(xué)習(xí)的計算機(jī)程序。定義五:AI就是根據(jù)對環(huán)境的感知,做出合理的行動,并獲得最大收益的計算機(jī)程。如今人工智能的時代到來,給予了我們很大的便利。如智能圖像理解軟件Google照片、智能美圖軟件美圖秀秀、只能搜索排序軟件Google、智能出行自動駕駛軟件滴滴優(yōu)步司機(jī)、智能機(jī)器翻譯軟件有道翻譯官等。
1.2 人工智能的發(fā)展歷史
迄今為之,人工智能誕生已有62年。1956年,John McCarthy創(chuàng)造人工只能一次。1962年,IBM的阿瑟··薩繆爾開發(fā)的西洋跳棋程序就戰(zhàn)勝過一位盲人跳棋高手。1987年到1993年現(xiàn)代PC的出現(xiàn),讓人工智能的寒冬再次降臨。1997年IBM計算機(jī)“深藍(lán)“成功擊敗世界頂級國際象棋高手之后,國際商用機(jī)器公司(IBM)又嘗試一輪新的人機(jī)博弈。2016年AlphaGo在圍棋人機(jī)大戰(zhàn)中擊敗韓國職業(yè)九段棋手李世石。
1.3 人工智能的復(fù)興
人工智能的復(fù)興可分為以下兩次。第一次AI熱潮由圖靈測試掀起。艾倫.圖靈是人工智能的開拓者,他所提出的圖靈測試,直到今天仍然是我們判定一部機(jī)器是否具有人類智慧的重要手段。假如有一臺宣稱自己會"思考"的計算機(jī),人們該如何辨別計算機(jī)是否真的會思考呢?一個好方法是讓測試者和計算機(jī)通過鍵盤和屏幕進(jìn)行對話,測試者并不知道與之對話的到底是一臺計算機(jī)還是一個人。如果測試者分不清幕后的對話者是人還是機(jī)器,即,如果計算機(jī)能在測試中表現(xiàn)出與人等價,或至少無法區(qū)分的智能,那么,我們就說這臺計算機(jī)通過了測試并具備人工智能。第二次AI熱潮則由語音識別掀起。20世紀(jì)80年代到90年代的第二次AI熱潮中,語音識別是當(dāng)時最具代表性的幾項突破性進(jìn)展之一。今天我們拿出手機(jī),使用蘋果手機(jī)內(nèi)置的語音輸入法,或者使用中文世界流行的科大訊飛語音輸入法,我們就可以直接對著手機(jī)說話以錄入文字信息。技術(shù)上,科大訊飛的語音輸入法可以達(dá)到每分鐘錄入400個漢字的輸入效率,甚至還支持十幾種方言輸入。
1.4人工智能所帶來的警示
AlphaGo帶來的警示是:如果計算機(jī)可以在兩年內(nèi)實現(xiàn)大多數(shù)人預(yù)測要花20年或更長時間才能完成的進(jìn)步,那么,還有哪些突破會以遠(yuǎn)超常人預(yù)期的速度來臨?這些突破會不會超出我們對人工智能的想象,顛覆人類預(yù)想中的未來?我們已為這些即將到來的技術(shù)突破做好準(zhǔn)備了嗎?AI真的會讓人類大量失業(yè)嗎?哪種工作最容易被AI取代?這一系列的問題,都引起我們的思考。
1.5 分析人工智能
人工智能的應(yīng)用場景有:自動駕駛、智慧生活、智慧醫(yī)療、藝術(shù)創(chuàng)作、智慧金融、和人類同場競技等。今天的人工智能還不能做什么?情感、審美、自我意識、跨領(lǐng)域的推理、抽象能力、常識等。人工智能時代,程式化的、重復(fù)性的、僅靠記憶與練習(xí)就可以掌握的技能將是最沒有價值的技能,幾乎一定可以由機(jī)器來完成;反之,那些最能體現(xiàn)人的綜合素質(zhì)的技能,例如,人對于復(fù)雜系統(tǒng)的綜合分析、決策能力,對于藝術(shù)和文化的審美能力和創(chuàng)造性思維,由生活經(jīng)驗及文化熏陶產(chǎn)生的直覺、常識,基于人自身的情感(愛、恨、熱情、冷漠等)與他人互動的能力,這些是人工智能時代最有價值,最值得培養(yǎng)、學(xué)習(xí)的技能。
2 識別模式
如今,機(jī)器學(xué)習(xí)的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機(jī)視覺、智能機(jī)器人等領(lǐng)域。其中模式識別就是計算機(jī)用數(shù)學(xué)技術(shù)方法來研究模式的自動處理和判讀。我們把環(huán)境與客體統(tǒng)稱為“模式”。當(dāng)我們?nèi)搜劭吹揭环嫊r,我們能夠很清晰的知道其中哪里是動物,哪里是山,水,人等等,但是人眼又是如何識別和分辨的呢,其實很簡單,人類也是在先驗知識和對以往多個此類事物的具體實例進(jìn)行觀察的基礎(chǔ)上得到的對此類事物整體性質(zhì)和特點的認(rèn)識的,并不是人類原本就有對這類事物的記憶,就好比嬰孩時期的我們,并不知道什么是狗,什么是帥哥,什么是美女,但是隨著我們的慢慢長大,我們觀察的多了,見的多了,再加上過來人的經(jīng)驗指導(dǎo),我們就知道的多了。 其實,每一種外界的事物都是一種模式,人類平均每天都在進(jìn)行著很多很多的各種各樣的模式識別,人們對外界事物的識別,很大部分是把事物進(jìn)行分類來完成的。而我們對事物進(jìn)行辨別,就是模式識別。
2.1 識別模式的主要方法
解決模式識別的方法主要有:模板匹配法,ANN法,基于知識的方法和基于數(shù)據(jù)的方法?;谥R的方法就是專家系統(tǒng),句法識別就屬于基于知識的,但是句法識別不常用?;跀?shù)據(jù)的方法也就是基于統(tǒng)計的方法,即依據(jù)統(tǒng)計原理來構(gòu)造分類器,來對未知樣本進(jìn)行預(yù)測,這種學(xué)習(xí)過程是機(jī)器學(xué)習(xí)中研究最多的一個方向,也是模式識別采用的最主要方法。顧名思義,ANN也就是大名鼎鼎的神經(jīng)網(wǎng)絡(luò)。模式識別的研究范疇,存在兩個極端,要么分類和特征之間的關(guān)系完全確定,要么完全隨機(jī)。
2.2 監(jiān)督與無監(jiān)督
簡單來說,類別已定的就叫做有監(jiān)督分類,反之就是無監(jiān)督分類;前者因為我們有已知劃分類別的訓(xùn)練樣本來作為學(xué)習(xí)過程的“導(dǎo)師”,所以很多時候,有監(jiān)督和無監(jiān)督,又叫做有導(dǎo)師學(xué)習(xí)和無導(dǎo)師學(xué)習(xí);
后者,在不知道要劃分的是什么類別時,我們要做的工作是聚類(clustering),根據(jù)樣本特征將樣本聚成多少類,使屬于同一類的樣本在一定意義上是相似的,不同類之間的樣本則有較大差異,通過聚類得到的類別也稱作為聚類,但是通常在聚類中存在一個尺度問題,當(dāng)設(shè)置的尺度不一樣,得到的聚類也不一樣。所以在很多無監(jiān)督識別問題中,分類結(jié)果并不一定是唯一的,因此在沒有特別指定的目的情況下,很難說哪種分類方案更合理。另外,用一種方法在一個樣本集上完成了聚類分析,得到了若干個聚類,這種聚類結(jié)果只是數(shù)學(xué)上的一種劃分,對應(yīng)用的實際問題是否有意義,還需要結(jié)合更多更專業(yè)的知識來進(jìn)行解釋。
2.3 識別模式應(yīng)用
主要有:語音識別,說話人識別,OCR,復(fù)雜圖像定目標(biāo)的識別,根據(jù)地震勘探數(shù)據(jù)對地下儲層性質(zhì)的識別,利用基因表達(dá)數(shù)據(jù)進(jìn)行癌癥的分類等等。
2.4 模式識別系統(tǒng)的構(gòu)成
一個模式識別系統(tǒng)通常包括典型的四個部分(如下圖):對原始數(shù)據(jù)的獲取和預(yù)處理,特征提取與特征選擇,分來或聚類,后處理;以上四個部分,無論是監(jiān)督的還是無監(jiān)督的都共有的,可以說是整個系統(tǒng)的核心所在,也是模式識別學(xué)科的主要研究內(nèi)容。
3 總結(jié)與期望
AI來了,有思想的人生并不會因此而黯然失色,因為我們?nèi)康淖饑?yán)就在于思想。機(jī)器帶給人類的不是失業(yè),而是更大的自由與更加個性化的人生體驗。未來也將是一個人類和機(jī)器共存、協(xié)作完成各類工作的全新時代。正如譚鐵牛院士在中科院第十九次院士大會上的報告《人工智能:天使還是魔鬼?》所說的那樣,高科技本身沒有天使和魔鬼之分,人工智能也是如此,這一把雙刃劍,是天使還是魔鬼取決于人類自身。人工智能在天使手里是天使,在魔鬼手里就是魔鬼。因此我們有必要未雨綢繆形成合力,確保人工智能正面效應(yīng),確保人工智能造福于人類。
參考文獻(xiàn)
[1]張學(xué)工,模式識別[M].北京:清華大學(xué)出版社,2000.1
篇6
關(guān)鍵詞:交叉學(xué)科;跨學(xué)科;計算神經(jīng)科學(xué);人工智能;研究生培養(yǎng)
文章編號:1672-5913(2013)18-0001-05
中圖分類號:G642
1 背景
科學(xué)史上,許多重大的科學(xué)發(fā)現(xiàn)都產(chǎn)生在不同學(xué)科的碰撞和融合中。在自然科學(xué)領(lǐng)域,許多偉大的科學(xué)家都有著復(fù)雜的學(xué)科背景,20世紀(jì)1/3的諾貝爾獲獎項目出現(xiàn)在交叉科學(xué)領(lǐng)域。計算機(jī)學(xué)科里很多大科學(xué)家也都有著交叉學(xué)科的背景,如計算機(jī)之父馮·諾伊曼其實是個數(shù)學(xué)家,在經(jīng)濟(jì)、量子力學(xué)及幾乎所有數(shù)學(xué)領(lǐng)域都作出過重大貢獻(xiàn),他提出的計算機(jī)二進(jìn)制表達(dá)正是得益于其敏銳的數(shù)學(xué)洞察力。清華大學(xué)計算機(jī)科學(xué)與技術(shù)系張鈸院士多次在公開講座中提到,經(jīng)他統(tǒng)計,自1966年美國計算機(jī)協(xié)會(ACM)設(shè)立圖靈獎以來一直到2012年,60個獲獎?wù)咧?/3的人都有數(shù)學(xué)、物理、化學(xué)等理科專業(yè)背景,甚至還有政治等人文科學(xué)背景;相反,純粹是計算機(jī)專業(yè)或相近專業(yè)如電子學(xué)、無線電學(xué)等背景出身的人并不多。由此可見,熟練掌握其他學(xué)科的知識對于在計算機(jī)領(lǐng)域作出重要貢獻(xiàn)大有裨益。
高校培養(yǎng)交叉學(xué)科人才,一是要引導(dǎo)學(xué)生學(xué)習(xí)不同學(xué)科的課程,二是開設(shè)一些本身就是多學(xué)科交叉的課程。國內(nèi)高校已經(jīng)做了大量嘗試,也收到了不錯的效果。2013年,《計算機(jī)教育》雜志專門策劃了跨學(xué)科教學(xué)專題,對國內(nèi)跨學(xué)科教學(xué)的實踐情況進(jìn)行報道。很多高校的一線教學(xué)人員都報告了他們在交叉學(xué)科教育方面的構(gòu)想或?qū)嵺`經(jīng)驗。
計算神經(jīng)科學(xué)是一門新興學(xué)科,對于促進(jìn)腦科學(xué)、信息科學(xué)尤其是人工智能等領(lǐng)域的發(fā)展具有重要意義。2010年3月23-25日,中國科學(xué)院、浙江大學(xué)、上海交通大學(xué)的知名學(xué)者齊聚北京,舉行第367次香山科學(xué)會議,主題為“神經(jīng)信息學(xué)與計算神經(jīng)科學(xué)的前沿問題”。與會專家探討了計算神經(jīng)科學(xué)的國內(nèi)外發(fā)展情況,指出該學(xué)科在國內(nèi)外都還發(fā)展不成熟,我們應(yīng)抓住機(jī)遇建立一流的計算神經(jīng)科學(xué)。要達(dá)到這個目標(biāo),除了加大科研資助和鼓勵科研創(chuàng)新外,優(yōu)質(zhì)的課程教學(xué)必不可少。鑒于計算神經(jīng)科學(xué)的多學(xué)科交叉特點,許多專業(yè)都可以嘗試進(jìn)行這方面的教學(xué),包括醫(yī)學(xué)、生物學(xué)、心理學(xué)、數(shù)學(xué)、物理、化學(xué)、計算機(jī)、電子,自動化等,筆者將論述計算神經(jīng)科學(xué)與計算機(jī)科學(xué)的關(guān)系以及開設(shè)該課程所面臨的機(jī)遇與挑戰(zhàn)。
2 計算神經(jīng)科學(xué)的特點及其與計算機(jī)科學(xué)的關(guān)系
借助飛速發(fā)展的現(xiàn)代科技,人類已經(jīng)能夠上天入地,但是對于腦的認(rèn)識卻十分有限。諾貝爾獎得主克里克(Crick)說過:“對我們?nèi)藖碚f,在科學(xué)研究中沒有比研究自己的腦更重要的了。我們對整個世界的認(rèn)識都有賴于它。”認(rèn)識人腦的工作機(jī)理有兩方面的意義,一是促進(jìn)神經(jīng)疾病診療技術(shù)的發(fā)展,二是提高人工智能的水平。
誠如艾薩克·阿西莫夫(Issac Asimov)所言,“人腦是我們所知道的最復(fù)雜的組織”。它有大約1011個神經(jīng)元,而平均每個神經(jīng)元要與103~104個神經(jīng)元相連。雖然這些數(shù)字現(xiàn)在看來并非很大(能存儲1T=1012Byte的硬盤在市場上已經(jīng)很普遍),但問題是計算機(jī)硬件是我們事先按一定規(guī)則構(gòu)建的系統(tǒng),我們對于它每一部分的結(jié)構(gòu)與功能都非常清楚,而人腦卻是一個黑箱。想象一下讓一臺計算機(jī)穿越回唐朝,讓那個時代的人們了解這臺計算機(jī)的工作原理是一件多么不可想象的事情。
幸運(yùn)的是隨著科學(xué)技術(shù)的發(fā)展,實驗手段正發(fā)生著翻天覆地的變革,我們面對的黑箱正在慢慢變灰。通過這些實驗手段,我們可以觀察到“箱子”的部分內(nèi)部。然而,只看到大腦內(nèi)部的一些的結(jié)構(gòu)和它們之間的關(guān)系遠(yuǎn)遠(yuǎn)不夠。唐朝人打開計算機(jī)主機(jī)蓋,能看到主板、CPU、內(nèi)存條甚至一些精細(xì)的電子元件,但這對于他們完全理解計算機(jī)的工作原理還差很遠(yuǎn)。他們需要綜合各種技術(shù)手段得到計算機(jī)內(nèi)部情況,從硬件問的相互連接關(guān)系推斷出馮·諾伊曼設(shè)計的體系結(jié)構(gòu)及發(fā)展變化,從軟件的功能推斷出算法邏輯,從二進(jìn)制代碼推斷出可讀代碼。要得到這些結(jié)果,只有實驗數(shù)據(jù)是不夠的,還必須對數(shù)據(jù)進(jìn)行整理分析,從蛛絲馬跡中發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律和原則。人腦就好比一臺唐朝人眼中的計算機(jī)。計算神經(jīng)科學(xué)就是一門試圖通過理論分析和建模計算的方式理解腦工作原理的學(xué)科。
計算神經(jīng)科學(xué)領(lǐng)域的形成始于1988年,Seinowski、Koch和Churchland在Science雜志上發(fā)表了計算神經(jīng)科學(xué)領(lǐng)域的“宣言”。從廣義上講,只要是通過建模、仿真等手段對神經(jīng)科學(xué)的實驗數(shù)據(jù)和實驗現(xiàn)象進(jìn)行定量分析的,都屬于計算神經(jīng)科學(xué)的范疇。近年來,由于實驗技術(shù)的革新和腦科學(xué)研究的蓬勃發(fā)展,這方面的研究早已不局限于生物、醫(yī)學(xué)、心理學(xué)等學(xué)科,很多其他學(xué)科的研究人員以各種方式參與到腦科學(xué)的研究中,包括數(shù)學(xué)、物理、計算機(jī)、電子、材料等,他們將該學(xué)科中的一些定量計算理論引入神經(jīng)科學(xué)并據(jù)此研究腦科學(xué)的實驗數(shù)據(jù)和現(xiàn)象。
國外許多著名高校都設(shè)有計算神經(jīng)科學(xué)的研究中心或相應(yīng)專業(yè),包括MIT:CSAIL-ArtificialIntelligence Group;Stanford University:Center forMind,Brain and Compution;Harvard University:Mind/Brain/Behavior Program;CMU/University ofPittsburg:Center for the Neural Basis Of Cognition:University College London:Gatsby ComputationalNeuroscience Unit;Columbia University:BionetGroup。這其中大多數(shù)都有信息科學(xué)類院系的參與,如MIT的Artificial Intelligence Group就是在計算機(jī)與人工智能實驗室下的一個組,而Stanford University 的Center for Mind,Brain andComputation由計算機(jī)系、電子系、語言系、神經(jīng)生物系、心理系以及神經(jīng)科學(xué)研究所的教授組成。計算機(jī)領(lǐng)域的一些杰出學(xué)者也參與了計算神經(jīng)科學(xué)的研究,包括MIT的David Marr和Tomaso Poggio,CMU的Tom Mitchell,Caltech的Pietro Perona,Stanford Universit),的Fei-Fei Li等。這里還不包括大量的以計算機(jī)科學(xué)、電子工程等為教育背景但主要活躍在神經(jīng)生理學(xué)、認(rèn)知心理學(xué)等傳統(tǒng)神經(jīng)科學(xué)領(lǐng)域的學(xué)者。
一方面,計算機(jī)科學(xué)及其相近領(lǐng)域的研究人員對神經(jīng)科學(xué)和認(rèn)知心理學(xué)的貢獻(xiàn)越來越大,已經(jīng)成為腦科學(xué)研究中一支不可忽視的力量;另一方面,神經(jīng)科學(xué)和認(rèn)知心理學(xué)的研究進(jìn)展對計算機(jī)科學(xué)的某些方面起到很大的推動作用。例如,近年來在機(jī)器學(xué)習(xí)領(lǐng)域非常熱門的深度學(xué)習(xí)(Deep Learning),在很大程度上受到大腦感覺系統(tǒng)層次化結(jié)構(gòu)的啟發(fā),見圖1。其中,圖1(a)為大腦視覺皮層各區(qū)域的位置及信息處理通道,圖1(b)為深度學(xué)習(xí)的框架。
3 面向計算機(jī)專業(yè)研究生開設(shè)計算神經(jīng)科學(xué)課程的機(jī)遇和挑戰(zhàn)
相對于醫(yī)學(xué)、生物學(xué)、心理學(xué)等專業(yè),面向計算機(jī)專業(yè)的研究生開設(shè)計算神經(jīng)科學(xué)課程相對容易。這是因為通過本科階段的培養(yǎng),計算機(jī)專業(yè)研究生在理論證明、邏輯推斷、數(shù)據(jù)分析等方面的基礎(chǔ)更扎實,他們接受醫(yī)學(xué)、生物、心理學(xué)等學(xué)科的知識相對容易;但反過來,讓那些習(xí)慣了生理和心理實驗的學(xué)生接受一些計算理論方面的知識則相對困難。而相對于數(shù)學(xué)、物理、化學(xué)等理科專業(yè),計算機(jī)專業(yè)的研究生在模型實現(xiàn)方面有優(yōu)勢。這是因為現(xiàn)在很多計算神經(jīng)科學(xué)的模型都涉及大規(guī)模計算,扎實的編程基礎(chǔ)使得他們在處理這類問題上更加得心應(yīng)手。這些是面向計算機(jī)專業(yè)研究生開設(shè)計算神經(jīng)科學(xué)課程的機(jī)遇。然而我們面臨的挑戰(zhàn)更大,主要包括兩個方面,論述如下。
3.1 課程定位的挑戰(zhàn)
通過調(diào)查一些國外著名大學(xué)開設(shè)的計算神經(jīng)科學(xué)課程,我們可以發(fā)現(xiàn)大多數(shù)課程的立足點都是“理解腦”,以揭開大腦的秘密為目的,而且無論該課程是神經(jīng)科學(xué)、心理學(xué)或相關(guān)院系開設(shè)的(如Baylor College ofMedicine神經(jīng)科學(xué)系的課程Theoretical Neuroscience-Learning,Perception,Cognition,MIT腦與認(rèn)知科學(xué)系的課程Inlroduction to Computational Neuroscience),還是交叉學(xué)科中心開設(shè)的(如UniversityCollege London Gatsby ComputationalNeuroscience Unit的課程ComputationalPerception and Scene Analysis),甚至是一些計算機(jī)類院系開設(shè)的(如CMU計算機(jī)系的課程Computational Perception),都是這樣。
如果在國內(nèi)高校面向計算機(jī)專業(yè)開設(shè)計算神經(jīng)科學(xué)課程,將課程目標(biāo)定位于“理解腦”,會存在一定的現(xiàn)實困難。國外著名高校非常注重基礎(chǔ)研究和交叉學(xué)科研究,經(jīng)過多年的發(fā)展,他們培養(yǎng)的研究生已經(jīng)形成了學(xué)習(xí)其他學(xué)科知識的習(xí)慣,但國內(nèi)研究生在選修課程方面則顯得更加功利一些,只選修那些目前對自己有用的課程。對計算機(jī)專業(yè)的學(xué)生而言,修一門有關(guān)理解大腦工作機(jī)理的課程顯得比較怪異,這與他們將來從事的IT工作似乎風(fēng)馬牛不相及;為此,我們一方面需要從課程體制、培養(yǎng)計劃等方面引導(dǎo)學(xué)生重視基礎(chǔ)學(xué)科和交叉學(xué)科的課程,另一方面還需要考慮在現(xiàn)階段如何通過課程定位吸引計算機(jī)專業(yè)學(xué)生選修相關(guān)課程。
3.2 師資力量的挑戰(zhàn)
交叉學(xué)科課程的講授對授課教師的專業(yè)素養(yǎng)提出了更高的要求,授課教師需要具有交叉學(xué)科的研究背景,這樣才能把學(xué)科前沿看得更清楚,把問題講得更透徹,但這通常不是一件容易的事,對于計算神經(jīng)科學(xué)這一學(xué)科跨度非常大的交叉學(xué)科而言更是這樣。國內(nèi)這一學(xué)科目前還處于萌芽階段,從事相關(guān)研究的學(xué)者相對較少,零散地分布在各自院校的不同院系,而且無論是在哪個院系,他們都是少數(shù)派。師資力量的不足已經(jīng)成為制約計算神經(jīng)科學(xué)在國內(nèi)高校和科研院所發(fā)展的主要因素之一。
4 應(yīng)對挑戰(zhàn)的措施
4.1 準(zhǔn)確進(jìn)行課程定位
為了使學(xué)生更容易接受計算神經(jīng)科學(xué)這一課程,我們首先需要給這一學(xué)科下一個恰當(dāng)?shù)亩x。從狹義上講,我們建議將計算神經(jīng)科學(xué)定義為神經(jīng)科學(xué)、認(rèn)知心理學(xué)和人工智能的交叉學(xué)科,三者之間的關(guān)系如圖2所示。人工智能是計算機(jī)學(xué)科的一個專業(yè)方向(這里的人工智能包含機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等各種智能計算的理論與方法),是計算機(jī)科學(xué)與神經(jīng)科學(xué)和認(rèn)知心理學(xué)產(chǎn)生交叉的主要領(lǐng)域。相對于計算神經(jīng)科學(xué)的廣義定義,這一定義拉近了其與計算機(jī)專業(yè)學(xué)生的心理距離。
針對計算機(jī)專業(yè)的學(xué)生,該課程定位不能只是“理解腦”,還要強(qiáng)調(diào)“利用腦”,教師需要向?qū)W生強(qiáng)調(diào):一方面人工智能為神經(jīng)科學(xué)和認(rèn)知心理學(xué)提供研究的工具,另一方面后兩者的發(fā)展又反過來促進(jìn)人工智能等信息領(lǐng)域的技術(shù)革新。學(xué)生理解了這一點,選修這一課程的積極性才會提高。計算神經(jīng)科學(xué)在計算機(jī)專業(yè)內(nèi)并不是一門孤立的課程,它其實要用到很多概率論、線性代數(shù)、機(jī)器學(xué)習(xí)、模式識別等領(lǐng)域的知識,與人工神經(jīng)網(wǎng)絡(luò)、人工智能、計算機(jī)視覺等學(xué)科有著緊密的聯(lián)系。計算神經(jīng)科學(xué)與清華大學(xué)計算機(jī)科學(xué)與技術(shù)系一些專業(yè)課程之間的關(guān)系如圖3所示,其中箭頭表示課程間的支持關(guān)系。
4.2 有效提高師資力量
一方面,我們要鼓勵教師進(jìn)行計算神經(jīng)科學(xué)這一交叉學(xué)科領(lǐng)域的研究,培養(yǎng)該領(lǐng)域的杰出學(xué)者或從國外全職引進(jìn)一批這樣的學(xué)者,這是解決師資力量不足的根本之道。如果在全職引進(jìn)人才方面有困難,可以通過國家的各種引智計劃引進(jìn)一批短期工作的學(xué)者,讓他們開設(shè)計算神經(jīng)科學(xué)方面相關(guān)課程,以便有志于此方面教學(xué)科研的本地教師參與學(xué)習(xí),最終實現(xiàn)課程的本土移植。
另一方面,我們也可嘗試讓多個專業(yè)的教師同時講授這門課程。教師一起確定教學(xué)大綱,分工合作,各自講授涉及自己專業(yè)的那一部分內(nèi)容并適當(dāng)向神經(jīng)科學(xué)靠攏。這樣做的優(yōu)點是較容易找到合適的教師并且每名教師不用花太多精力學(xué)習(xí)其他領(lǐng)域的知識,缺點是內(nèi)容會比較散,難以形成一個有機(jī)整體,更麻煩的是教師如果不專門從事計算神經(jīng)科學(xué)的研究,那么對于某些知識點則難以講透;因此這項措施只是權(quán)宜之計,一旦條件成熟,我們還是建議由從事計算神經(jīng)科學(xué)研究的教師授課。
5 教學(xué)內(nèi)容的選擇
由于計算神經(jīng)科學(xué)是一門交叉學(xué)科,涉及的知識點較多并且分布在很多學(xué)科里,因此要求學(xué)生將這些學(xué)科的課程全部學(xué)完后再學(xué)這門課程,顯然不現(xiàn)實也不必要。另外,將所有計算神經(jīng)科學(xué)的知識點都在課堂上講解一遍也不現(xiàn)實,這就涉及教學(xué)內(nèi)容的選擇問題。
5.1 教學(xué)內(nèi)容精而新
“精”強(qiáng)調(diào)對教學(xué)內(nèi)容的篩選,有兩個原則:一是重要的基礎(chǔ)知識必須講到,這些基礎(chǔ)知識包括神經(jīng)科學(xué)、數(shù)學(xué)、信息論、機(jī)器學(xué)習(xí)等領(lǐng)域的與計算神經(jīng)科學(xué)密切相關(guān)的基礎(chǔ)知識,這樣培養(yǎng)出的學(xué)生才能舉一反三;二是挑選有代表性的專題,如神經(jīng)元模型、有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)等,把每個專題講深入了,才能讓學(xué)生體會到這一學(xué)科的常規(guī)研究思路和方法,培養(yǎng)學(xué)生將來從事相關(guān)研究工作的能力。
“新”強(qiáng)調(diào)教學(xué)內(nèi)容的時效性。一個尷尬的事實是現(xiàn)在真正稱得上計算神經(jīng)科學(xué)的教材很少,筆者認(rèn)為最經(jīng)典的教材要數(shù)Peter Dayan和LarryAbbott主編的Theoretical Neuroscience,該教材由MIT出版社于2001年出版。這本教材內(nèi)容很豐富,基本覆蓋計算神經(jīng)科學(xué)領(lǐng)域內(nèi)所有的大方向,缺點是內(nèi)容比較陳舊。計算神經(jīng)科學(xué)近年來發(fā)展迅速,大量的經(jīng)典工作都沒有包含在該教材中。該教材若作為研究生課程教材顯然不合適,因此教師必須總結(jié)近年來該領(lǐng)域的一些重要進(jìn)展,如在頂級期刊(如Nature、Science等)上挑選一些重要研究成果并將這些內(nèi)容歸納到自己的講義中。
5.2 教學(xué)內(nèi)容向計算機(jī)科學(xué)傾斜
教師在教學(xué)過程中不僅要強(qiáng)調(diào)揭開腦的奧秘,還要強(qiáng)調(diào)這些奧秘對于計算機(jī)科學(xué)的意義和作用。一方面挑選一些能讓計算機(jī)科學(xué)發(fā)揮重要作用和計算機(jī)專業(yè)學(xué)生體現(xiàn)優(yōu)勢的內(nèi)容,如神經(jīng)信號處理和人機(jī)接口,因為這些需要用到較多的模式識別技術(shù);另一方面強(qiáng)調(diào)為我所用,挑選一些對計算機(jī)科學(xué)有用的內(nèi)容,如稀疏編碼、深度學(xué)習(xí)等在機(jī)器學(xué)習(xí)和模式識別領(lǐng)域受到廣泛關(guān)注的話題。
6 結(jié)語
計算神經(jīng)科學(xué)是一門新興的交叉學(xué)科,為了響應(yīng)在國內(nèi)建立一流計算神經(jīng)科學(xué)的號召,對于科研和教學(xué)我們都不能忽視。目前國內(nèi)有能力開設(shè)計算神經(jīng)科學(xué)課程的學(xué)校還不多,即使有也只集中在醫(yī)學(xué)、心理學(xué)等院系,其定位一般側(cè)重于“理解腦”。長此以往,國內(nèi)對于腦科學(xué)的研究將面臨跛腳走路的尷尬境地,因為腦科學(xué)研究的另一任務(wù)——提高人工智能的水平將被忽略,因此在工科院系尤其是信息科學(xué)相關(guān)院系開設(shè)計算神經(jīng)科學(xué)方面的課程非常有必要。研究型高校應(yīng)抓住機(jī)遇,從政策上鼓勵工科院系開設(shè)相關(guān)課程,這對于國內(nèi)學(xué)術(shù)界從容應(yīng)對腦科學(xué)革命這一挑戰(zhàn)具有重要意義。
參考文獻(xiàn):
[1]孫群,張劍湖,李俊民,數(shù)學(xué)專業(yè)設(shè)置交叉學(xué)科課程的研究[J],高等理科教育,2007(2):29-31
[2]鄭利平,安寧,路強(qiáng),等,跨學(xué)科教學(xué)實踐與構(gòu)想[J],計算機(jī)教育,2013(1):3-5
[3]陶飛,程穎,楊金鍵,等,交叉學(xué)科研究模式的組織建設(shè)研究[J],計算機(jī)教育,2013(1):6-10
[4]羅嘉慶,周世杰,跨學(xué)科課程教學(xué)研究與案例[J],計算機(jī)教育,2013(1):11-13
篇7
【關(guān)鍵詞】MATLAB;數(shù)字圖像處理;人臉識別
1.引言
人臉識別是當(dāng)前計算機(jī)模式識別領(lǐng)域中的一個非常活躍的研究課題,在安全檢測、身份驗證、軍事、商業(yè)等領(lǐng)域具有廣泛的應(yīng)用前景?;谌四樧R別的自動身份認(rèn)證具有重要的理論意義和應(yīng)用價值。但是通過人臉圖像來進(jìn)行識別仍然面臨巨大的挑戰(zhàn),要使這一技術(shù)成為完全成熟的技術(shù)還有許多工作需要做。
2.人臉識別的研究內(nèi)容
人臉識別(Face Recognition)是指基于己知的人臉樣本庫,利用圖像處理和模式識別技術(shù)從靜態(tài)或動態(tài)場景中,識別或驗證一個或多個人臉。從廣義上講,其研究內(nèi)容包括以下五個方面:
(1)人臉檢測(Face Detection):即從動態(tài)的場景或復(fù)雜的背景中檢測出人臉的存在并且確定其位置,然后分離出來。這一任務(wù)主要受光照、噪聲、頭部傾斜度以及各種遮擋的影響。
(2)人臉表征(Face Representation):也稱為人臉特征提取,即采用某種表示方法來描述檢測出的人臉與數(shù)據(jù)庫中已知人臉。通常的表示方法包括幾何特征(如歐氏距離、曲率、角度等)、代數(shù)特征(如矩陣特征矢量)、固定特征模板、特征臉、云紋圖等。
(3)人臉識別(Face Identification):即將待識別的人臉與數(shù)據(jù)庫中已知人臉比較,得出相關(guān)信息。這一過程的核心是選擇適當(dāng)?shù)娜四槺碚鞣椒ㄅc匹配策略。
(4)表情分析(Facial Expression Analysis):即對待識別人臉的表情進(jìn)行分析,并對其加以歸類。
(5)生理分類(Physical Classificat-ion):即對待識別人臉的生理特征進(jìn)行分析,得出其年齡、性別等相關(guān)信息,或者從幾幅相關(guān)的圖像推導(dǎo)出希望得到的人臉圖像,如從父母圖像推導(dǎo)出孩子的臉部圖像、基于年齡增長的人臉圖像估算等。
相對來說,人臉的表情分析、生理分類是兩個非常難的研究方向,不過它在計算機(jī)圖形學(xué),尤其是計算機(jī)動畫等領(lǐng)域有很廣泛的應(yīng)用前景,因此在最近幾年得到了國內(nèi)外很多從事計算機(jī)視覺(Computer Vision)的研究人員的注意。本論文主要介紹狹義的靜態(tài)人臉圖像識別方法,研究的重點是人臉特征提取與識別的關(guān)鍵技術(shù),不涉及表情識別和生理分類方面。
人臉識別系統(tǒng)通常主要由人臉檢測與定位,人臉特征提取與識別兩部分組成,在這兩部分的基礎(chǔ)上還包括圖像預(yù)處理等步驟。其主要實現(xiàn)步驟如下:
(1)圖像預(yù)處理
由于實際成像系統(tǒng)多少存在不完善的地方以及外界光照條件等因素的影響,在一定程度上增加了圖像的噪聲,使圖像變得模糊,且對比度低、區(qū)域灰度不平衡。為了提高圖像的質(zhì)量,保證提取特征的有效性,進(jìn)而提高識別系統(tǒng)的識別率,在提取特征之前,有必要對圖像進(jìn)行預(yù)處理操作,以改善圖像質(zhì)量,保證提取特征的有效性。
(2)人臉的檢測與定位
從輸入圖像中找出人臉及人臉?biāo)诘奈恢?,并將人臉從背景中分割出來,輸出為分割好的人臉局部圖像。
(3)圖像歸一化
圖像歸一化屬于圖像預(yù)處理的范疇。在對人臉圖像進(jìn)行特征提取和分類之前一般需要做幾何歸一化和灰度歸一化。幾何歸一化是指根據(jù)人臉定位結(jié)果將圖像中人臉變換到同一位置和同樣大小,灰度歸一化是指對圖像進(jìn)行光照補(bǔ)償?shù)忍幚?,光照補(bǔ)償能夠一定程度的克服光照變化的影響而提高識別率[3,4]。
(4)特征提取與識別
對于歸一化了的人臉圖像進(jìn)行面部的各特征提取,將原始人臉圖像中的數(shù)據(jù)映射到特征空間,對人臉進(jìn)行特征建模,建立的特征模型主要用于區(qū)分各人臉之間的差異性,為人臉識別分類打下基礎(chǔ)。由于原始的人臉圖像數(shù)據(jù)量是相當(dāng)大的,為了有效的實現(xiàn)分類識別,就要對原始數(shù)據(jù)進(jìn)行變換,得到最能反映分類本質(zhì)的特征,如何提取穩(wěn)定和有效的特征是識別系統(tǒng)成敗的關(guān)鍵。人臉識別驗證是整個自動人臉識別系統(tǒng)的最后一個步驟,根據(jù)面部特征的提取結(jié)果,將待檢測人臉與人臉庫中人臉數(shù)據(jù)進(jìn)行比較,判斷出待檢驗人臉的身份信息。
一個完整的人臉自動識別系統(tǒng)如圖1所示。
對以上人臉識別系統(tǒng)進(jìn)行分析可以看出,人臉識別研究需要考慮以下幾個主要方面:如何準(zhǔn)確快速的檢測并分割出人臉部分;在非約束環(huán)境下,如何采用一些必要的處理方法來提高系統(tǒng)的魯棒性,尋找一種受人臉姿態(tài)變化和光照條件等因素影響較小的特征提取方法;如何有效的變化補(bǔ)償、特征描述和準(zhǔn)確的分類等等,以上方面均直接影響人臉識別的速度與準(zhǔn)確度。
3.人臉識別的具體過程
在實驗編程中,我們利用的是MATLAB
7.0平臺。MATLAB是由MathWorks公司推出的一套高性能的數(shù)值計算和可視化的數(shù)學(xué)軟件。MATLAB編程運(yùn)算與人進(jìn)行科學(xué)計算的思路和表達(dá)方式完全一致。不像學(xué)習(xí)其他高級語言如Basic、C那樣難于掌握。MATLAB的基本元素是矩陣,所以其非常適合用來進(jìn)行圖像處理。MATLAB具有強(qiáng)大的數(shù)值計算和圖示能力。具有非常豐富的工具箱(ToolBox)。在國內(nèi)外高等院校中,已成為高等數(shù)學(xué)、數(shù)值分析、數(shù)字信號處理、自動控制理論以及工程應(yīng)用等課程的基本教學(xué)工具。
3.1 將訓(xùn)練樣本圖像輸入程序
采用的訓(xùn)練樣本圖像為包含4個人的圖像樣本集,以驗證本程序的通用性。圖2為本實驗要輸入到識別程序中的部分人臉樣本圖像。
3.2 程序?qū)斎氲膱D像進(jìn)行預(yù)處理
本程序?qū)斎氲膱D像進(jìn)行的預(yù)處理包括有彩色圖像到灰度圖像的轉(zhuǎn)換、圖像的噪聲消減、圖像的尺寸歸一化等。人臉識別需要將人臉圖像樣本尺寸歸一化,即縮放變換到固定的尺寸。在本程序中,為方便圖像矩陣的計算,提升計算速度,將圖像統(tǒng)一縮放到120×120大小。圖3為經(jīng)過預(yù)處理后得到的灰度圖像。
3.3 人臉圖像訓(xùn)練階段
利用基于PCA+LDA算法的人臉識別算法進(jìn)行人臉識別,該環(huán)節(jié)包括訓(xùn)練和識別兩個環(huán)節(jié),對人臉樣本圖像進(jìn)行訓(xùn)練則會產(chǎn)生平均臉和特征臉。圖5-4為訓(xùn)練樣本集中各人臉圖像的特征臉,圖4為訓(xùn)練樣本集的平均臉。
3.4 人臉圖像識別階段
將測試圖像輸入程序。若經(jīng)過程序判斷待測試圖像為人臉圖像庫中的人臉圖像,則顯示識別結(jié)果。圖5為測試?yán)雍妥R別結(jié)果。
4.人臉識別實驗結(jié)果及分析
由于受實驗條件所限,未能利用該人臉識別系統(tǒng)采集大量不同的人臉實驗樣本,只是由簡單人臉圖像數(shù)據(jù)庫來充分驗證系統(tǒng)的性能。實驗中,人臉庫中有4個各自4幅圖片,從中每人各隨機(jī)選擇3幅人臉圖像作為訓(xùn)練樣本,共同作為訓(xùn)練樣本集。其余每人所剩下的1幅人臉圖像作為測試樣本集。所有照片比較充分的反映了同一個人的不同人臉圖像因光照變化、面部細(xì)節(jié)變化等因素而產(chǎn)生的差異。攝像頭獲取的照片拍攝于不同的時間,且同樣允許在一定范圍內(nèi)的光照、表情及面部角度的變化。該人臉識別系統(tǒng)采用基于PCA+LDA算法的人臉識別方法,具體實現(xiàn)步驟如前文所述。按照上述訓(xùn)練及測試樣本的選取,在不同的人臉樣本的情況下,利用該系統(tǒng)進(jìn)行人臉識別,均獲得了80%以上的識別率。
從實驗結(jié)果可以看出,即使所采用的訓(xùn)練及測試樣本集中的圖像樣本均為具有一定姿態(tài)變化,在不同光照條件下獲取的圖像,但該人臉識別系統(tǒng)仍具有很好的識別效果。另外,該人臉識別系統(tǒng)采用優(yōu)秀的人臉識別算法,降低了系統(tǒng)的運(yùn)算量,因此具有較高的識別速度。這充分說明了運(yùn)用PCA+LDA方法進(jìn)行人臉識別的可行性。
本文所設(shè)計的人臉識別系統(tǒng)實現(xiàn)了人臉識別主要模塊的功能,但距離一個具有實時性的快速自動人臉識別系統(tǒng)還相差較遠(yuǎn),在系統(tǒng)的構(gòu)建方面還有許多工作要做。針對該系統(tǒng)現(xiàn)狀,在今后的工作中,還要對其作進(jìn)一步的完善。
參考文獻(xiàn)
[1]王蘊(yùn)紅,朱勇,譚鐵牛.基于虹膜識別的身份鑒別[J].自動化學(xué)報,2002,28(11):l-10.
[2]梁路宏.人臉檢測與跟蹤研究[D].清華大學(xué)博士論文,2001.
[3]程云鵬.矩陣論[M].西安:西北工業(yè)大學(xué)出版社,2003,2.
作者簡介:
篇8
關(guān)鍵詞:ROS;機(jī)器人;Ubuntu
20世紀(jì)以來隨著電子技術(shù)的不斷發(fā)展及人類對于自身的不斷了解,機(jī)器人的研究也在不斷深入?,F(xiàn)階段雖能做出外表、走路等接近人類的機(jī)器人,但這些都屬于前沿領(lǐng)域,研究門檻高,實際的商業(yè)用途不是很廣,所以大多還停留在樣品階段,走進(jìn)市場的很少。借助互聯(lián)網(wǎng)和智能手機(jī)的大潮,嵌入式處理器正在完成以前臺式處理器做不到的事情,于是現(xiàn)階段機(jī)器人又被重新定義。在目前的消費(fèi)領(lǐng)域,某些配備智能處理器和具有互聯(lián)網(wǎng)功能的產(chǎn)品也被認(rèn)為是機(jī)器人,如圖1所示的兩款國內(nèi)廠家生產(chǎn)的機(jī)器人產(chǎn)品。圖1所示的機(jī)器人屬于生活工具類,一般放置在家中,無法自行移動,采用嵌入式處理器,帶有攝像頭、無線網(wǎng)絡(luò)模塊、顯示模塊,可以連接手機(jī),通過手機(jī)App對機(jī)器人進(jìn)行相關(guān)設(shè)置,同時機(jī)器人攝像頭采集到的圖像也能實時傳給手機(jī),和手機(jī)進(jìn)行語音對講。機(jī)器人還帶有語音識別模塊,若向它詢問“明天天氣如何”,他會從網(wǎng)絡(luò)獲取天氣信息然后作出回答。這些放置在家中的機(jī)器人也可以實現(xiàn)安全監(jiān)測的功能,通過手機(jī)實時查看家中的監(jiān)控影像或通過適配各種傳感器以實時洞悉,比如貼在門窗后面的加速度傳感器,當(dāng)門窗被動作時傳感器給機(jī)器人發(fā)出信號,機(jī)器人隨即通過設(shè)定的方式進(jìn)行報警。
圖2所示為兩款國外生產(chǎn)的機(jī)器人,其最主要的特點是可以運(yùn)動,屬于智能玩具的范疇。這些機(jī)器人可以連接智能手機(jī),通過手機(jī)對機(jī)器人進(jìn)行設(shè)置,然后把手機(jī)當(dāng)做機(jī)器人的操作桿,操作其做出各種運(yùn)動,達(dá)到娛樂的目的。同時,機(jī)器上裝有攝像頭,可以在手機(jī)上同步看到機(jī)器人攝像頭拍攝到的視頻畫面。但也有一些創(chuàng)新,如左邊的機(jī)器人在星戰(zhàn)電影里有原形,用手機(jī)攝像頭對準(zhǔn)該機(jī)器人,通過手機(jī)端的AR技術(shù),在手機(jī)屏幕里可以給機(jī)器人加上各種效果,增加娛樂性。
還有一些具有特殊用途的機(jī)器人,如掃地機(jī)器人,其根據(jù)內(nèi)部的路徑算法清潔地面,同時能自動避開障礙物,并于電量即將耗盡時自動返回充電樁充電。
今后服務(wù)機(jī)器人的趨勢會是以上列舉的這些機(jī)器人的集大成者,即在軟件智能和C械運(yùn)動方面不斷發(fā)展。軟件智能通過高性能的嵌入式處理器實現(xiàn)視頻處理、網(wǎng)絡(luò)連接和語音識別等技術(shù)。機(jī)械運(yùn)動則先搭配單片機(jī)和步進(jìn)電機(jī),通過輪子的滾動實現(xiàn)移動,通過增加機(jī)械零件和改進(jìn)算法來逐步實現(xiàn)動物甚至人體的肢體行走。圖3所示框圖列出了實現(xiàn)具有該功能機(jī)器人需要采用的技術(shù)。
高性能嵌入式處理器上運(yùn)行著機(jī)器人的核心系統(tǒng)。攝像頭采集視頻圖像,并對圖像中的事物進(jìn)行一些簡單判別,如識別人臉,對靜態(tài)事物的圖像采集也能讓機(jī)器人辨別障礙物,或計算出靜態(tài)事物的大致幾何圖形甚至尺寸。對動態(tài)事物的圖像采集,機(jī)器人可以計算出動態(tài)事物的運(yùn)動軌跡甚至速度。4G和WiFi&BT模塊屬于無線通信模塊,有了無線通信機(jī)器人才能得到自身之外的更多信號,并將自身的信息傳達(dá)給別人。語音識別模塊能讓機(jī)器人識別聲音,顯示&觸摸屏只是機(jī)器人與外界交互的一種方式,GPS模塊能讓機(jī)器人知道自己的位置信息,存儲模塊除了存儲機(jī)器人的系統(tǒng)和各類軟件外,也能讓機(jī)器人具有記憶功能。攝像頭采集視頻圖像并計算,計算結(jié)果可以存儲在存儲模塊中,當(dāng)遇到類似的計算時就可以判別事物,通過網(wǎng)絡(luò)模塊將這類信息傳遞出去分享給更多的機(jī)器人。單片機(jī)管理著機(jī)器人各類基礎(chǔ)模塊,步進(jìn)電機(jī)控制機(jī)器人的運(yùn)動,各類傳感器讓機(jī)器人有了感知外界環(huán)境的能力。紅外模塊可以實現(xiàn)對一些外部電器的操控,電池和電池管理模塊為整個機(jī)器人的運(yùn)轉(zhuǎn)提供能量。
硬件結(jié)構(gòu)是實現(xiàn)服務(wù)機(jī)器人運(yùn)算和控制的基礎(chǔ),在高性能嵌入式處理器上運(yùn)行的操作系統(tǒng)進(jìn)行服務(wù)機(jī)器人具體的運(yùn)算和控制,相當(dāng)于機(jī)器人的靈魂。目前主流的三大機(jī)器人操作系統(tǒng)有Ubuntu,Android和ROS。Android軟件平臺使用較廣泛,ROS為專用的機(jī)器人軟件平臺。要實現(xiàn)對服務(wù)機(jī)器人的運(yùn)算和控制,軟件平臺需要解決以下問題:
(1)分布式計算現(xiàn)代機(jī)器人系統(tǒng)往往需要多個計算機(jī)同時運(yùn)行多個進(jìn)程,當(dāng)多個機(jī)器人需要協(xié)同完成一個任務(wù)時,需要互相通信來支撐任務(wù)完成;用戶通過臺式機(jī)、筆記本或者移動設(shè)備發(fā)送指令控制機(jī)器人,而人機(jī)交互接口可以認(rèn)為是機(jī)器人軟件的一部分。
(2)軟件復(fù)用隨著機(jī)器人研究的快速推進(jìn),誕生了一批應(yīng)對導(dǎo)航、路徑規(guī)劃、建圖等通用任務(wù)的算法。當(dāng)然,任何一個算法實用的前提是其能夠應(yīng)用于新的領(lǐng)域,且不必重復(fù)實現(xiàn)。
(3)快速測試為機(jī)器人開發(fā)軟件比其他軟件開發(fā)更具有挑戰(zhàn)性,主要是因為調(diào)試準(zhǔn)備時間長,且調(diào)試過程復(fù)雜。何況受硬件維修、經(jīng)費(fèi)有限等條件限制,未必隨時有機(jī)器人可供使用。
ROS作為機(jī)器人專用的軟件平臺,可在ARM搭配Ubuntu的環(huán)境下運(yùn)行,對服務(wù)機(jī)器人的運(yùn)算和控制進(jìn)行了諸多優(yōu)化,大大增強(qiáng)了其實用性。
(1)點對點設(shè)計
一個使用ROS的系統(tǒng)包括一系列進(jìn)程,這些進(jìn)程存在于多個不同的主機(jī)并且在運(yùn)行過程中通過端對端的拓?fù)浣Y(jié)構(gòu)進(jìn)行聯(lián)系。雖然基于中心服務(wù)器的那些軟件框架也可以實現(xiàn)多進(jìn)程和多主機(jī)的優(yōu)勢,但在這些框架中,當(dāng)各電腦通過不同的網(wǎng)絡(luò)進(jìn)行連接時,中心數(shù)據(jù)服務(wù)器就會出現(xiàn)問題。
ROS的點對點設(shè)計以及服務(wù)和節(jié)點管理器等機(jī)制可以分散由計算機(jī)視覺和語音識別等功能帶來的實時計算壓力,適應(yīng)多機(jī)器人遇到的挑戰(zhàn)。點對點設(shè)計示意如圖4所示。
(2)多語言支持
在寫代碼時,許多編程者會比較偏向某一些編程語言。這些偏好是個人在每種語言的編程時間、調(diào)試效果、語法、執(zhí)行效率以及各種技術(shù)和文化的原因?qū)е碌?。為解決這些問題,我們將ROS設(shè)計成語言中立性框架結(jié)構(gòu)。ROS現(xiàn)在支持許多種不同的語言,如C++、Python、Octave和LISP,同時還包含其他語言的多種接口實現(xiàn)。
(3)精簡與集成
大多數(shù)已經(jīng)存在的機(jī)器人軟件工程包含了可以在工程外重復(fù)使用的驅(qū)動和算法,不幸的是,由于多方面的原因,大部分代碼的中間層都過于混亂,以至于很難提取出它的功能,也很難把它們從原型中提取出來應(yīng)用到其他方面。
為了應(yīng)對這種趨勢,我們鼓勵將所有的驅(qū)動和算法逐漸發(fā)展成為和ROS沒有依賴性單獨的庫。ROS建立的系統(tǒng)具有模塊化的特點,各模塊中的代碼可以單獨編譯,而且編譯使用的CMake工具使它很容易的就實現(xiàn)精簡的理念。ROS將復(fù)雜的代碼封裝在庫里,只創(chuàng)建一些小的應(yīng)用程序為ROS顯示庫的功能,允許對簡單代碼超越原型進(jìn)行移植和重新使用。作為一種新加入的優(yōu)勢,當(dāng)代碼在庫中分散后單元測試也變得非常容易,一個單獨的測試程序可以測試庫中很多的特點。
(4)工具包豐富
為了管理復(fù)雜的ROS軟件框架,利用大量小工具來編譯和運(yùn)行多種多樣的ROS組建,從而設(shè)計成了內(nèi)核,而非構(gòu)建一個龐大的開發(fā)和運(yùn)行環(huán)境,示意圖如圖5所示。
(5)免費(fèi)并且開源
篇9
關(guān)鍵詞: 在線學(xué)習(xí); 目標(biāo)檢測; 隨機(jī)蕨分類器; 半自主學(xué)習(xí)
中圖分類號: TN919?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)09?0121?05
Abstract: Since the object attitude has great variation in different monitoring scenes and different imaging conditions, an object detection system with semi?autonomous learning ability is proposed. The system can improve the detection performance by means of fast semi?autonomous learning while executing the detection task. The system is composed of object detection module and online learning module. To satisfy the requirement of system online learning, the online learning method of random fern classifier is proposed. It can sustainably self?renewal the object detection module, and improve the detection performance. The whole learning process by needn′t prepare the initial training samples semi?autonomous learning framework, and only select a detected object to perform the adaptive learning, so the detection performance is improved gradually. The experimental results show that the method has strong adaptive capability and high detection rate.
Keywords: online learning; object detection; random fern classifier; semi?autonomous learning
0 引 言
在線學(xué)習(xí)屬于增量學(xué)習(xí)的研究范疇,在這一類方法中分類器對每個樣本只學(xué)一次,而不是重復(fù)的學(xué)習(xí),這樣在線學(xué)習(xí)算法運(yùn)行過程中不需要大量的存儲空間存儲訓(xùn)練樣本。分類器每獲得一個樣本,即對其進(jìn)行在線學(xué)習(xí),使分類器能根據(jù)新樣本自我更新和改進(jìn),進(jìn)一步提高分類效果。早期的在線學(xué)習(xí)算法有Winnow算法[1]、統(tǒng)一線性預(yù)測算法[2]及增量有監(jiān)督人工神經(jīng)網(wǎng)絡(luò)[3]等。2001年學(xué)者Oza將這些算法與boosting算法[4]進(jìn)行結(jié)合,提出了在線boosting算法[5]。在Oza的方法中,強(qiáng)分類器是一定數(shù)量的弱分類器的加權(quán)和,這些弱分類器都是從弱分類器集合中挑選出來的。在線學(xué)習(xí)時,每個訓(xùn)練樣本逐一更新弱分類器集合中的每個弱分類器,包括調(diào)整正負(fù)樣本的分類閾值以及該分類器的權(quán)重,使分類準(zhǔn)確率高的弱分類器權(quán)重越來越高,而準(zhǔn)確率低的弱分類器權(quán)重越來越低,從而每次在線學(xué)習(xí)一個樣本就可以挑選出一個當(dāng)前權(quán)重最高的弱分類器加入強(qiáng)分類器中使最終訓(xùn)練出來的分類器有較強(qiáng)的分類能力。馮國瑜等人將在線學(xué)習(xí)用于增量支持向量機(jī)算法[6],也取得了不錯的效果。侯杰等人提出了基于指數(shù)損失和0?1損失的在線boosting算法[7],該方法嚴(yán)格證明了在線學(xué)習(xí)過程并未損失分類準(zhǔn)確性。但是,在線boosting算法的弱分類器集合中每個弱分類器都要對新樣本進(jìn)行在線學(xué)習(xí),當(dāng)弱分類器個數(shù)較多時,在線學(xué)習(xí)速度必然會變慢。Grabner對在線boosting算法進(jìn)行了改進(jìn),使其也像Adaboost算法一樣可以進(jìn)行特征選擇,并且這種特征選擇是在線進(jìn)行的,稱為在線Adaboost[8],從而使在線學(xué)習(xí)能夠用于計算機(jī)視覺領(lǐng)域的目標(biāo)檢測。該算法初始化[N]組弱分類器集合,其中每個集合包含[M]個弱分類器。在線學(xué)習(xí)過程即為通過對新樣本的學(xué)習(xí)更新[M×N]個弱分類器權(quán)重及分類閾值的過程,同時在線學(xué)習(xí)新樣本權(quán)重也隨之更新??梢娙醴诸惼鱾€數(shù)越多,在線學(xué)習(xí)的分類器性能越好,但是,需在線更新的弱分類器越多,其學(xué)習(xí)速度越慢。此外,文獻(xiàn)[9?11]提出了一些改進(jìn)方法,但在線學(xué)習(xí)速度和分類器性能的矛盾一直沒有解決。
Ozuysal提出隨機(jī)蕨分類器算法[12],該算法隨機(jī)初始化多個隨機(jī)蕨,每個隨機(jī)蕨均包含[K]個特征。將每個特征二值化,相應(yīng)的[K]個特征構(gòu)成的隨機(jī)蕨為一個[K]位的二進(jìn)制碼。統(tǒng)計正負(fù)訓(xùn)練樣本在該隨機(jī)蕨的二進(jìn)制數(shù)值即得到該隨機(jī)蕨的后驗概率分布。對于待測樣本則由多個隨機(jī)蕨的后驗概率共同估計其類別。可見,該分類器將多個特征融合為一個隨機(jī)蕨,不再需要訓(xùn)練弱分類器,提高了分類器訓(xùn)練速度。因此,本文在其基礎(chǔ)上提出在線隨機(jī)蕨算法,通過更新每個隨機(jī)蕨的后驗概率分布實現(xiàn)在線學(xué)習(xí),從而擺脫了對樣本權(quán)重及各個弱分類器權(quán)重、閾值的更新,因此分類器在線學(xué)習(xí)速度快。此外,隨機(jī)蕨分類器分類性能的好壞由每個隨機(jī)蕨包含的特征數(shù)及總隨機(jī)蕨個數(shù)決定,特征越多,隨機(jī)蕨總數(shù)越大,則分類效果越好。而隨機(jī)蕨分類器的在線學(xué)習(xí)是通過更新其后驗概率分布實現(xiàn),因此提高隨機(jī)蕨個數(shù),增加每個隨機(jī)蕨包含的特征數(shù)對在線學(xué)習(xí)速度影響不大,較好的平衡了分類器性能和在線學(xué)習(xí)速度的矛盾。
此外,本文提出半自主在線學(xué)習(xí)框架,可在隨機(jī)蕨分類器進(jìn)行視頻目標(biāo)檢測的同時通過少量的人工干預(yù),逐漸提高該分類器的視頻目標(biāo)檢測性能。同時,該框架也驗證了隨機(jī)蕨分類器及其在線學(xué)習(xí)算法對視頻目標(biāo)檢測的效果。通過實驗可知,初始的隨機(jī)蕨分類器通過在線學(xué)習(xí)算法可有效提高其視頻目標(biāo)檢測精度。
1 隨機(jī)蕨分類器
1.1 隨機(jī)蕨分類器
對比式(4)可見,隨機(jī)蕨分類器隨機(jī)提取多個特征構(gòu)成隨機(jī)蕨,從而可聯(lián)合多個隨機(jī)蕨進(jìn)行近似計算。從這個角度看,該算法是近似精確度和計算速度的平衡,通過對每個隨機(jī)蕨包含特征數(shù)及隨機(jī)蕨個數(shù)的選擇可保證在分類器訓(xùn)練速度較快的情況下實現(xiàn)較好的分類精度。這一點對分類器的在線學(xué)習(xí)非常重要。
1.2 隨機(jī)蕨分類器的使用
由1.1節(jié)可知,隨機(jī)蕨后驗概率[P(FlCk)]的計算方法是隨機(jī)蕨分類器的關(guān)鍵。
通常訓(xùn)練隨機(jī)蕨分類器采用二進(jìn)制特征,如LBP,2 b模式等。假設(shè)在一個樣本中隨機(jī)提取5個特征值構(gòu)成一個隨機(jī)蕨[F,]則該樣本的一個隨機(jī)蕨數(shù)值即為5位二進(jìn)制碼對應(yīng)的十進(jìn)制數(shù)。由于該數(shù)值通過5位二進(jìn)制碼獲得,因此有25種可能的數(shù)值,針對大量訓(xùn)練樣本,可很方便地計算該隨機(jī)蕨的后驗概率。如圖1所示,由相同位置的5個特征可獲得每個樣本的隨機(jī)蕨數(shù)值,統(tǒng)計該數(shù)值分布即可獲得車輛樣本在該隨機(jī)蕨的后驗概率[P(FCk)]。
顯然一個隨機(jī)蕨對樣本的分類精度不高,可以通過式(4)聯(lián)合多個隨機(jī)蕨的分類結(jié)果,其中每個隨機(jī)蕨包含的特征數(shù)及使用的隨機(jī)蕨個數(shù)決定了分類精確度及訓(xùn)練隨機(jī)蕨分類器消耗的時間。
2 半自主在線學(xué)習(xí)
為了使基于隨機(jī)蕨分類器的視頻目標(biāo)檢測系統(tǒng)能夠在少量人工干預(yù)的幫助下逐漸提高檢測性能,本文提出半自主在線學(xué)習(xí)系統(tǒng),下面首先介紹在線隨機(jī)蕨算法,并在此基礎(chǔ)上構(gòu)建半自主學(xué)習(xí)系統(tǒng)。
2.1 在線隨機(jī)蕨分類器
由上節(jié)可知,隨機(jī)蕨分類器的訓(xùn)練不需更新弱分類器權(quán)重及樣本權(quán)重,只需統(tǒng)計每類訓(xùn)練樣本在不同隨機(jī)蕨的后驗概率分布即可,如圖2所示,因此該分類器的訓(xùn)練速度較快。并且,對于隨機(jī)蕨分類器的在線學(xué)習(xí)也很容易通過更新后驗概率分布實現(xiàn)。
本文主要探討在視頻中檢測某類目標(biāo)的問題,與圖1,圖2的多類目標(biāo)分類問題不同,需準(zhǔn)備正負(fù)樣本訓(xùn)練初始隨機(jī)蕨分類器,統(tǒng)計正負(fù)樣本在隨機(jī)蕨不同數(shù)值上的分布。例如,針對隨機(jī)蕨[F,]其對應(yīng)的特征值為00101的正負(fù)樣本個數(shù)分別為[N]和[M,]相應(yīng)地,該隨機(jī)蕨數(shù)值為00101時,為待檢測目標(biāo)的可能性是[NN+M,]該隨機(jī)蕨有5個特征,相應(yīng)有25種取值,統(tǒng)計每種取值的正負(fù)樣本個數(shù),計算其為待測目標(biāo)的可能性,即為隨機(jī)蕨[F]的后驗概率分布,如圖4所示。初始正負(fù)樣本通過隨機(jī)框選一個待檢測目標(biāo)進(jìn)行仿射變換得到。
在線學(xué)習(xí)時,每個隨機(jī)蕨的后驗概率分布根據(jù)增加的正負(fù)樣本數(shù)更新。設(shè)在線學(xué)習(xí)的樣本為[fnew,Ck,]其中[fnew]為其多維特征向量,[Ck]為其樣本類別,設(shè)為正樣本。下面以隨機(jī)蕨[F1]為例說明隨機(jī)蕨分類器的在線學(xué)習(xí)過程:
(1) 計算該樣本在隨機(jī)蕨[F1]的數(shù)值,設(shè)為00101,即十進(jìn)制數(shù)5;
(2) 將隨機(jī)蕨[F1]的數(shù)值也為5的正樣本數(shù)[N]加1,負(fù)樣本數(shù)[M]不變;
(3) 更新隨機(jī)蕨[F1]的后驗概率分布,其中數(shù)值5的后驗概率變?yōu)閇(N+1)(N+M+1);]
(4) 歸一化隨機(jī)蕨[F1]的后驗概率分布。
可見,隨機(jī)蕨分類器的在線學(xué)習(xí)過程即為各個隨機(jī)蕨數(shù)值對應(yīng)的樣本數(shù)統(tǒng)計過程,由樣本數(shù)變化更新后驗概率分布。因此其在線學(xué)習(xí)速度遠(yuǎn)高于其他在線學(xué)習(xí)算法。
2.2 半自主在線學(xué)習(xí)框架
本文提出半自主在線學(xué)習(xí)框架可在檢測系統(tǒng)運(yùn)行過程中手工框選部分錯誤的目標(biāo)檢測結(jié)果作為在線學(xué)習(xí)樣本,用于隨機(jī)蕨分類器的在線學(xué)習(xí),從而逐漸提高該分類器的視頻目標(biāo)檢測性能。通過實驗可知,初始的隨機(jī)蕨分類器通過在線學(xué)習(xí)算法可有效提高視頻目標(biāo)檢測精度。
半自主在線學(xué)習(xí)框架如圖5所示,首先在第一幀視頻圖像中框選一個待檢測目標(biāo), 利用該框選目標(biāo)進(jìn)行仿射變換得到初始正樣本集,同時在該視頻幀的非目標(biāo)區(qū)域提取少量初始負(fù)樣本集。由初始正負(fù)樣本集根據(jù)1.2節(jié)提出的訓(xùn)練方法訓(xùn)練初始隨機(jī)蕨分類器,將該分類器用于后續(xù)幀的同類目標(biāo)檢測。由人工對部分檢測結(jié)果進(jìn)行判斷,對于檢測到的虛警則標(biāo)注為在線學(xué)習(xí)負(fù)樣本,對于漏檢目標(biāo)則框選出來作為在線學(xué)習(xí)的正樣本,采用2.1節(jié)提到的方法對隨機(jī)蕨分類器進(jìn)行在線學(xué)習(xí),更新其后驗概率分布。由于整個過程是人工指定在線學(xué)習(xí)樣本,因此這種方法稱為半自主在線學(xué)習(xí)。
半自主學(xué)習(xí)框架可在某一監(jiān)控場景視頻中在線訓(xùn)練有針對性的分類器,這和傳統(tǒng)的離線學(xué)習(xí)方法有很大區(qū)別。離線學(xué)習(xí)中樣本準(zhǔn)備過程及分類器的訓(xùn)練過程均需耗費(fèi)大量時間,非常不方便。采用半自主學(xué)習(xí)可直接從視頻幀中框選一個待檢測的目標(biāo)啟動分類器的在線訓(xùn)練過程,雖然剛開始檢測性能不佳,但是隨著在線學(xué)習(xí)的樣本增多,檢測性能逐漸提高。此外,半自主學(xué)習(xí)中,手工選取的在線學(xué)習(xí)樣本主要針對檢測過程多次出現(xiàn)的虛警及漏檢目標(biāo),從而提高分類器訓(xùn)練的針對性,加快檢測性能提高速度,獲得針對某一監(jiān)控場景的檢測系統(tǒng)。一旦監(jiān)控場景變化或檢測目標(biāo)類別變化,只需重新框選目標(biāo)啟動新的半自主學(xué)習(xí)過程即可,從而為不同的監(jiān)控場景訓(xùn)練其專用的分類器檢測系統(tǒng)。
2.3 半自主在線學(xué)習(xí)流程
由2.2節(jié)可知,半自主在線學(xué)習(xí)框架主要用于驗證隨機(jī)蕨分類器在線學(xué)習(xí)的有效性,其流程如圖6所示。
3 實驗效果及分析
在車輛目標(biāo)檢測的實驗中,選取了一段交通視頻,從視頻文件中讀入視頻幀中的車輛信息。首先在第一幀視頻圖像中框選出一個車輛目標(biāo),對其進(jìn)行仿射變換,得到200個正樣本,再從監(jiān)控視頻四周非目標(biāo)區(qū)域提取300個負(fù)樣本訓(xùn)練初始隨機(jī)蕨分類器。其中隨機(jī)蕨分類器的隨機(jī)蕨個數(shù)為15,每個隨機(jī)蕨包含的特征數(shù)為5個。將該分類器用于對后續(xù)視頻幀車輛目標(biāo)的檢測,并手工選取漏檢目標(biāo)作為在線學(xué)習(xí)正樣本,同時手工選取虛警作為在線學(xué)習(xí)負(fù)樣本,對分類器進(jìn)行在線學(xué)習(xí)。實驗過程中,系統(tǒng)在線學(xué)習(xí)了不到500幀圖像,共2 875個正負(fù)樣本就獲得了不錯的檢測結(jié)果。如圖7~圖9所示。
在視頻目標(biāo)檢測的初始階段,在線學(xué)習(xí)的樣本較少,視頻幀中的目標(biāo)較難被檢測出來,這時候表現(xiàn)出來的是虛警少漏檢多,如圖7所示。隨著視頻中在線學(xué)習(xí)樣本量的增多,虛警越來越多,漏檢越來越少,如圖8所示。正樣本的在線學(xué)習(xí)使得視頻幀中能夠檢測到的目標(biāo)增多,負(fù)樣本的在線學(xué)習(xí)使漏檢減少,相應(yīng)地,虛警的數(shù)量就會變少。當(dāng)分類器在線訓(xùn)練的正負(fù)樣本越來越多時,分類型的性能就逐漸提高,視頻幀中的每個目標(biāo)基本能夠被檢測出來,虛警也越來越少,如圖9所示。
通過觀察并且記錄了每個階段視頻幀中某部分虛警的數(shù)量和漏檢的數(shù)量,形成了一個表格,比較直觀地發(fā)現(xiàn)它們的變化規(guī)律,如表1所示。
為了說明本文在線隨機(jī)蕨分類器能夠在不同的環(huán)境中對目標(biāo)進(jìn)行檢測,具有較強(qiáng)的自適應(yīng)性。將訓(xùn)練好的車輛目標(biāo)分類器在第二種檢測環(huán)境下進(jìn)行半自主學(xué)習(xí),只訓(xùn)練了200幀左右,共862個正負(fù)樣本,就獲得了較好的檢測效果,如圖10,圖11所示,而在第三種檢測環(huán)境下,只半自主學(xué)習(xí)了不到100幀,共253個正負(fù)樣本,其檢測結(jié)果如圖12,圖13所示。
4 結(jié) 論
本文將隨機(jī)蕨算法和在線學(xué)習(xí)理論結(jié)合起來應(yīng)用到目標(biāo)檢測系統(tǒng)中,組成了在線隨機(jī)蕨的目標(biāo)檢測方法。通過半自主學(xué)習(xí)框架使檢測模型在執(zhí)行目標(biāo)檢測任務(wù)的同時逐步提高自身的檢測性能。多組實驗結(jié)果表明,本系統(tǒng)可以適應(yīng)成像目標(biāo)以及成像背景的變化,并保持不錯的檢測效果。
未來將進(jìn)一步提高在線學(xué)習(xí)隨機(jī)蕨分類器的分類能力,并結(jié)合在線學(xué)習(xí)樣本自主獲取、標(biāo)注方法,將系統(tǒng)擴(kuò)展為全自主在線學(xué)習(xí)系統(tǒng),拓寬其應(yīng)用范圍。
參考文獻(xiàn)
[1] LITTLESTONE N. Learning quickly when irrelevant attributes abound: a new linear threshold algorithm [J]. Machine learning, 1988, 2(4): 285?318.
[2] LITTLESTONE N, WARMUTH M K. The weighted majority algorithm [J]. Information and computation, 1994, 108(2): 212?261.
[3] POLIKAR R, UPDA L, UPDA S S, et al. Learn++: an incremental learning algorithm for supervised neural networks [J]. IEEE transactions on systems, man, and cybernetics, part C (applications and reviews), 2001, 31(4): 497?508.
[4] VIOLA P, JONES M J. Fast and robust classification using asymmetric AdaBoost and a detector cascade [J]. Advances in neural information processing system, 2002, 2(3): 1311?1318.
[5] OZA N, RUSSELL S. Online bagging and boosting [C]// Proceedings of the Eighth International Workshop on Artificial Intelligence and Statistics. Florida: [s.n.], 2001: 105?112.
[6] 馮國瑜,肖懷鐵,付強(qiáng),等.一種適于在線學(xué)習(xí)的增量支持向量數(shù)據(jù)描述方法[J].信號處理,2012,28(2):186?192.
[8] GRABNER H, BISCHOF H. On?line boosting and vision [C]// Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 260?267.
[9] ZEISL B, LEISTNER C, SAFFARI A, et al. On?line semi?supervised multiple?instance boostin [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 1879?1887.
[10] CHEN S T, LIN H T, LU C J. Boosting with online binary learners for the multiclass bandit problem [C]// Proceedings of the 31st International Conference on Machine Learning. [S.l.: s.n.], 2014: 342?350.
[11] QI Zhiquan, XU Yitian, WANG Laisheng. Online multiple instance boosting for object detection [J]. Neurocomputing, 2011, 74(10): 1769?1775.
[12] OZUYSAL M, CALONDER M, LEPETIT V, et al. Fast keypoint recognition using random ferns [J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(3): 448?461.