新基建成為科技領(lǐng)域的焦點(diǎn)話題。作為新基建的重要內(nèi)容,人工智能的發(fā)展愈發(fā)受到人們關(guān)注,不過與基礎(chǔ)設(shè)施相比,人工智能很難將其具象化而出。但伴隨圖像處理技術(shù)、光學(xué)成像技術(shù)、傳感器技術(shù)等的發(fā)展,以及算法的不斷優(yōu)化,使人工智能的兩大分支(自然語言處理與機(jī)器視覺)擁有了感知物理世界的能力,作為圖像圖形領(lǐng)域中的重點(diǎn)內(nèi)容之一,遙感應(yīng)用行業(yè)也站在了產(chǎn)業(yè)智能化的風(fēng)口。
圖來源網(wǎng)絡(luò)
1950年,科學(xué)家Alan Turing提出使用機(jī)器偽裝人類對(duì)話的能力來衡量機(jī)器的智能水平,掀起了人工智能(Artificial Intelligence,AI)的浪潮。概括而言,AI是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新技術(shù)科學(xué),涉及到數(shù)學(xué)、語言學(xué)、神經(jīng)科學(xué)、心理學(xué)、物理學(xué)、認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科。黨的十八大以來,黨和國家高度重視和大力扶持新一代信息技術(shù)發(fā)展,移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)加速交叉融合發(fā)展,有效地推動(dòng)人工智能技術(shù)快速成熟、產(chǎn)業(yè)快速發(fā)展和經(jīng)濟(jì)社會(huì)領(lǐng)域廣泛應(yīng)用。2021年3月5日,“十四五規(guī)劃”和2035年遠(yuǎn)景目標(biāo)綱要草案提請(qǐng)十三屆全國人大四次會(huì)議審查。其中,將新一代人工智能中的“前沿基礎(chǔ)理論突破、專用芯片研發(fā)、深度學(xué)習(xí)框架等開源算法平臺(tái)構(gòu)建、學(xué)習(xí)推理與決策、圖像圖形、語音視頻、自然語言識(shí)別處理等領(lǐng)域的創(chuàng)新”作為了一項(xiàng)需要重點(diǎn)突破的科技前沿領(lǐng)域。作為圖像圖形領(lǐng)域中的重點(diǎn)內(nèi)容之一,遙感應(yīng)用行業(yè)站在了產(chǎn)業(yè)智能化的風(fēng)口,AI與大數(shù)據(jù)技術(shù)賦能于遙感應(yīng)用,也成為了行業(yè)以及學(xué)術(shù)界廣泛關(guān)注和研究的課題,而如何利用人工智能手段輔助挖掘這些豐富的信息也成為了遙感圖像分析與理解的重要內(nèi)容。
以深度學(xué)習(xí)為主要應(yīng)用的AI技術(shù)為遙感影像解譯提供了新的方法,適用于遙感大數(shù)據(jù)的自動(dòng)化處理和數(shù)據(jù)挖掘,其能夠深度地挖掘遙感影像中的有效信息,從而快速賦能于行業(yè)應(yīng)用。人工智能發(fā)展的三要素包括算力、算法和數(shù)據(jù),而深度學(xué)習(xí)本質(zhì)上是采用監(jiān)督學(xué)習(xí)的方式,通過大量樣本數(shù)據(jù)來學(xué)習(xí)目標(biāo)的本質(zhì)特征,并據(jù)此對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)判別,其基礎(chǔ)性的研究主要分為兩大方面,一方面是樣本庫的設(shè)計(jì)與標(biāo)注,另一方面是網(wǎng)絡(luò)結(jié)構(gòu)與模型設(shè)計(jì)。
遙感影像樣本庫的設(shè)計(jì)與構(gòu)建
在樣本庫的設(shè)計(jì)與標(biāo)注研究中,在計(jì)算機(jī)視覺領(lǐng)域經(jīng)過多年的發(fā)展已經(jīng)構(gòu)建了以ImageNet為代表的眾多自然圖像樣本庫,并多次作為深度模型訓(xùn)練與驗(yàn)證的數(shù)據(jù)集。樣本庫的數(shù)量和質(zhì)量作為深度學(xué)習(xí)模型成功應(yīng)用的重要決定因素,其標(biāo)注應(yīng)能夠客觀真實(shí)的反映實(shí)際地物情況,在標(biāo)注過程中可以遵循以下原則:
(1)最大最小范圍原則:標(biāo)注的目標(biāo)區(qū)域要盡量大到包含目標(biāo)區(qū)域的邊界,但也要小到除了目標(biāo)區(qū)域邊界外,不包含其它物體特征;
(2)寧無不錯(cuò)的原則:錯(cuò)誤的標(biāo)簽對(duì)于模型訓(xùn)練的過程是很大的擾動(dòng),會(huì)導(dǎo)致模型訓(xùn)練難以收斂,最終導(dǎo)致模型的泛化性極差、難以擬合等問題;
(3)所標(biāo)即所見原則:標(biāo)注過程中只標(biāo)注從視覺上確定的目標(biāo)物體,對(duì)于有遮擋或者無法分辨的地物不進(jìn)行標(biāo)注,也即是不添加主觀想象力和先驗(yàn)知識(shí)。
在具體的遙感影像應(yīng)用上,由于受到尺度效應(yīng)、成像條件、地表場(chǎng)景等眾多因素的影響,使得遙感圖像包含了分布復(fù)雜的多種地物類型。在建立遙感圖像樣本庫時(shí),學(xué)者們提出了不僅需要考慮更多的地物屬性特征,既標(biāo)注單一地物,也應(yīng)標(biāo)注其特征的存在背景和關(guān)聯(lián)數(shù)據(jù),也即是構(gòu)建面向?qū)ο蟮倪b感知識(shí)庫,為深度學(xué)習(xí)模型提供包括基礎(chǔ)圖形、對(duì)應(yīng)的屬性類別、位置信息以及地物對(duì)象的物理和社會(huì)特征等輔助信息。目前,研究者們已經(jīng)構(gòu)建了大量用于目標(biāo)探測(cè)和圖像分類的標(biāo)記樣本庫,如針對(duì)車輛識(shí)別的TAS數(shù)據(jù)集(圖像數(shù)30,圖像大小792×636)、OIRDS數(shù)據(jù)集(圖像數(shù)900,圖像大小256~640×256~640)、DLR 3K Vehicle(圖像數(shù)20,圖像大小5616×3744);針對(duì)飛機(jī)識(shí)別的UCAS-AOD數(shù)據(jù)集(圖像數(shù)1510,圖像大小1280×659);針對(duì)建筑物識(shí)別的SZTAKI-INRIA數(shù)據(jù)集(圖像數(shù)9,圖像大小800×800);針對(duì)船只識(shí)別的HRSC2016數(shù)據(jù)集(圖像數(shù)1070,圖像大小>1000×600);針對(duì)多種地物提取的NWPUVHR-10數(shù)據(jù)集(圖像數(shù)800,圖像大小1000×1000)、VEDAI數(shù)據(jù)集(圖像數(shù)1210,圖像大小1024×1024)、ROSD數(shù)據(jù)集(圖像數(shù)976,圖像大小1280×1280)以及DOTA-v1.5數(shù)據(jù)集(圖像數(shù)2806,圖像大小800~4000×800~4000)等。
面向遙感解譯的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與模型設(shè)計(jì)
在網(wǎng)絡(luò)結(jié)構(gòu)與模型設(shè)計(jì)研究中,應(yīng)用在遙感影像分類方面的深度學(xué)習(xí)模型主要有深度置信網(wǎng)絡(luò)
(Deep BeliefNetwork,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和棧式自編碼器網(wǎng)絡(luò)(Stacked Auto-encoder Network,SAE),各方法的原理、分類效果以及優(yōu)缺點(diǎn)如表1所示。
表1 不同深度學(xué)習(xí)方法的特征比較
1998年,Lecun總結(jié)完善了經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)在手寫體數(shù)字識(shí)別中的應(yīng)用,作為深度學(xué)習(xí)方法中的典型代表,CNN可以接受圖像作為輸入數(shù)據(jù),避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。此外,CNN采用卷積和權(quán)值共享訓(xùn)練策略,極大地降低了模型復(fù)雜度,節(jié)省了訓(xùn)練開支,且能夠識(shí)別圖像的空間特征。更重要的是,CNN具有局部連接和空間下采樣特點(diǎn),使得CNN具有一定的平移、尺度和扭曲不變性,被廣泛的應(yīng)用于圖像的目標(biāo)識(shí)別和分類中。CNN模型通常由卷積層、池化層和全連接層組合而成:
(1)卷積層。卷積層是CNN的核心,目的是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取。在卷積層中,使用一組濾波器(即卷積核),與前一層中位置鄰接區(qū)域內(nèi)的元素進(jìn)行卷積操作,并使用非線性激活函數(shù)進(jìn)行映射,獲取圖像的卷積特征;
(2)池化層。在卷積層進(jìn)行特征提取后,采用空間池化方法對(duì)卷積特征圖進(jìn)行下采樣,用于特征選擇和空間降維。池化層可以有效地降低模型復(fù)雜度,節(jié)省計(jì)算成本。常用的池化方法包括極大值池化和均值池化;
(3)全連接層。全連接層是將當(dāng)前網(wǎng)絡(luò)層中的每個(gè)節(jié)點(diǎn)與上一層的所有節(jié)點(diǎn)相連,可以整合卷積層或者池化層中提取到的特征。
2012年,Hinton研究組構(gòu)建了深度學(xué)習(xí)模型AlexNet并在ImageNet圖像識(shí)別中一舉奪冠,其采用ReLU激活函數(shù),從根本上解決了梯度消失問題,并采用GPU極大的提高了模型的運(yùn)算速度。在此后的幾年中,分別涌現(xiàn)出了諸如VGGNet、ResNet、GooleNet、MobileNet、DenseNet等特征自動(dòng)提取網(wǎng)絡(luò),并且在數(shù)據(jù)集測(cè)試上獲得了優(yōu)秀的提取結(jié)果。近年來,深度學(xué)習(xí)網(wǎng)絡(luò)模型不斷完善,在圖像識(shí)別和信息提取方面取得了突破性進(jìn)展,在很多任務(wù)上的精度已然超過人工識(shí)別精度。深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的巨大成功為遙感大數(shù)據(jù)信息智能提取提供了重要機(jī)遇,然而,遙感影像具有其專業(yè)化特征,如遙感影像中的目標(biāo)存在方向任意性、尺度多樣性、幾何形變和密集排列等特點(diǎn),因此要求基于CNN模型的改進(jìn)能夠結(jié)合遙感圖像目標(biāo)的特點(diǎn),有效地實(shí)現(xiàn)目標(biāo)檢測(cè)。遙感學(xué)界的學(xué)者和從業(yè)者也對(duì)不同的深度學(xué)習(xí)模型進(jìn)行了修改,將其應(yīng)用于遙感影像解譯中。例如,針對(duì)遙感圖像目標(biāo)方向的不確定性,可以提取旋轉(zhuǎn)不變特征實(shí)現(xiàn)水平框目標(biāo)檢測(cè),也可以設(shè)計(jì)能夠準(zhǔn)確識(shí)別目標(biāo)角度的方法來實(shí)現(xiàn)有向邊框目標(biāo)檢測(cè);針對(duì)目標(biāo)的尺度差異性,采用多尺度方法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),實(shí)現(xiàn)多尺度目標(biāo)檢測(cè);針對(duì)遙感目標(biāo)的密集排列問題,采用自適應(yīng)方法,實(shí)現(xiàn)密集目標(biāo)檢測(cè)。此外,針對(duì)遙感影像存在紋理特征復(fù)雜的特點(diǎn),為提高分類精度,現(xiàn)有研究通?;趦蓚€(gè)方向:一方面通過增加網(wǎng)絡(luò)層數(shù),訓(xùn)練更深的神經(jīng)網(wǎng)絡(luò)來提取深層次的的語義信息;另一方面則采用結(jié)合更高效模塊提高網(wǎng)絡(luò)的特征提取能力。深度學(xué)習(xí)模型在遙感影像解譯中已經(jīng)產(chǎn)生了大量的應(yīng)用并獲得了優(yōu)秀的解譯效果,其具有以下優(yōu)勢(shì):不需要人工設(shè)計(jì)特征,具有很強(qiáng)的特征學(xué)習(xí)和表達(dá)能力,可以直接從數(shù)據(jù)中學(xué)習(xí)更加抽象且含有語義信息的高層特征,模型預(yù)測(cè)性能高,具有較好的遷移學(xué)習(xí)能力。
遙感智能視覺平臺(tái)的構(gòu)建
目前,深度學(xué)習(xí)技術(shù)雖然在遙感影像解譯中取得了顯著的成果,但仍然存在著一些問題,如網(wǎng)絡(luò)模型大多依賴經(jīng)驗(yàn)設(shè)計(jì);需要大量有標(biāo)注的數(shù)據(jù);網(wǎng)絡(luò)模型復(fù)雜度高,容易出現(xiàn)局部最優(yōu)解或過擬合問題;訓(xùn)練耗時(shí),計(jì)算量大;存儲(chǔ)和計(jì)算資源要求高,通常需要GPU平臺(tái);模型的超參數(shù)選擇多依賴于經(jīng)驗(yàn)和技巧。鑒于此,測(cè)繪地理信息行業(yè)涌現(xiàn)出類似中科北緯(北京)科技有限公司這樣的企業(yè),以中科北緯為例,他們開發(fā)了面向用戶的遙感智能視覺平臺(tái)——天樞。在整體架構(gòu)上,依托于國際領(lǐng)先的國產(chǎn)開源框架飛槳(PaddlePaddle),打造出了影像智能解譯閉環(huán)鏈路,如圖1所示。在對(duì)遙感數(shù)據(jù)進(jìn)行挖掘提取過程中,經(jīng)過大規(guī)模迭代優(yōu)化,能夠避免季相變化、衛(wèi)星型號(hào)對(duì)解譯效果造成的影響,地塊分割準(zhǔn)確率達(dá)到90%以上,可對(duì)四個(gè)像素以上的影像變化進(jìn)行提取和輸出。此外,遙感智能視覺平臺(tái)集成了改變大小、標(biāo)準(zhǔn)化、隨機(jī)翻轉(zhuǎn)、局部隨機(jī)放大、隨機(jī)高斯模糊、隨機(jī)銳化、波段數(shù)量降維、添加NDVI通道、添加NDWI通道、添加NDBI通道等17種方法,重新定制并優(yōu)化了圖像增強(qiáng)方案。
圖1 影像智能解譯閉環(huán)鏈路
在功能上,中科北緯公司開發(fā)的天樞遙感智能視覺平臺(tái)采用B/S結(jié)構(gòu)開發(fā),面向非專業(yè)化用戶設(shè)計(jì)了友好的操作界面,提供了針對(duì)遙感數(shù)據(jù)的三大功能模塊:斜框檢測(cè)、地塊分割和變化檢測(cè),如圖2所示。該平臺(tái)構(gòu)建了一體化的遙感影像特征自動(dòng)提取流程,包括遙感影像預(yù)處理、模型訓(xùn)練、模型下發(fā)和使用、精度評(píng)價(jià)、結(jié)果后處理等過程。在常規(guī)任務(wù)上,如建筑物、水體、道路等特征的提取以及變化檢測(cè),無需用戶過多干預(yù),模型能夠輸出高精度的地物提取結(jié)果;此外,產(chǎn)品具有可擴(kuò)展性,也即是用戶可以按需訓(xùn)練適應(yīng)特定場(chǎng)景的模型,可用于不同尺度、不同分辨率、不同時(shí)期的遙感影像特征的提取及變化檢測(cè)。
圖2 遙感智能視覺平臺(tái)界面
可以預(yù)見,算法、算力和海量數(shù)據(jù)的沉淀使得AI與遙感應(yīng)用的結(jié)合正當(dāng)時(shí)。“可感知、能學(xué)習(xí)、易擴(kuò)展” 的遙感解譯平臺(tái),能夠?qū)崿F(xiàn)多源影像數(shù)據(jù)中的變化特征及建筑、林地、水域、道路、農(nóng)作物等多種目標(biāo)信息的智能化解譯,一定會(huì)受到泛在自然資源應(yīng)用和管理的歡迎。
未來十年,遙感是否可以深刻地影響社會(huì)發(fā)展,切實(shí)解決了生產(chǎn)生活中的問題,兼具普適性和經(jīng)濟(jì)價(jià)值,其關(guān)鍵點(diǎn)在于對(duì)遙感數(shù)據(jù)的解譯和應(yīng)用??萍歼M(jìn)步給人類帶來的不止是效率的提升、生活質(zhì)量的改善,更將為人類帶來別樣的認(rèn)識(shí)世界的方式和視角。當(dāng)腳下的地球被源源不斷地讀取進(jìn)計(jì)算中心,一個(gè)全新的認(rèn)知維度緩緩在我們面前展開,迎來新一輪的技術(shù)革新。人工智能技術(shù)的出現(xiàn),恰逢其時(shí),正如吳一戎院士所說,將AI賦能遙感技術(shù),貫穿海量多源異構(gòu)數(shù)據(jù)從處理分析到共享應(yīng)用的全鏈路,將能夠大幅度縮短遙感圖像的解譯周期,催生一些新的遙感應(yīng)用,并促進(jìn)遙感數(shù)據(jù)服務(wù)模式的變革,從而共創(chuàng)遙感新時(shí)代。
圖文 / 岳漢秋