近年來,全國多個省份地區(qū)已經(jīng)開始著手建設屬于自己的遙感樣本庫,這一良好的趨勢表明了各方政府正在積極響應并落實關(guān)于推廣“人工智能”這一新興技術(shù)的科技政策,也肯定了國家對于發(fā)展AI技術(shù)與各行各業(yè)深度融合的決心和愿景。
利用深度學習技術(shù)進行遙感圖像智能解譯已成為當前自然資源部在面臨國土問題作出精準快速決策的重要手段。深度學習技術(shù)當前主要依賴“監(jiān)督學習”分類方式,即必須有海量樣本數(shù)據(jù)參與訓練,最終的模型也就是從這些樣本蘊含的信息中進行的抽象結(jié)果。因此,如何構(gòu)建一套完整、穩(wěn)定、合理的樣本庫體系成為模型訓練前期最重要的任務和難題。
由于遙感數(shù)據(jù)的復雜性及遙感業(yè)務成果需求的多樣性,遙感樣本庫的建成往往需要綜合考慮多方面因素,究其本質(zhì)也就是致力于平衡“AI算法、遙感影像特性、業(yè)務規(guī)則、標注成本及效率”幾者之間的沖突。因此,這對于建設者提出了較高的要求,需要其對AI基本原理、遙感專業(yè)知識、項目管理能力等要有一個基本的掌握。我們一直倡導“授人以漁”的理念,從解決實際問題的角度出發(fā),盡管全國不同的地區(qū)對于遙感解譯業(yè)務關(guān)注的重點有所區(qū)別,實施方案也都別具一格,但是“萬變不離其宗”,絕大多數(shù)AI算法對于訓練樣本的質(zhì)量追求都是一致的,只要掌握樣本庫建設的底層邏輯,在面對各種復雜的業(yè)務場景時,也能夠形成一套適用于自身業(yè)務的獨特且合理的建設方案。下面根據(jù)作者自身的理解和經(jīng)驗列舉出樣本庫建設的幾個關(guān)鍵環(huán)節(jié):
明確分類體系
明確分類體系是樣本庫建設工作的基礎(chǔ),其主要目的是標準化 “人”的認知思維。
制定標準規(guī)則
制定出既適合AI算法原理又適合業(yè)務需求的標注規(guī)則,其主要目的是標準化“人”的作業(yè)成果質(zhì)量,讓“計算機”清晰地知道我們需要的是什么。
樣本選擇
在有限的樣本數(shù)量之內(nèi),如果有對特征分析處理的意識有助于提高模型的泛化能力。
樣本庫管理
制定出一套能容納所有遙感業(yè)務類型的樣本庫管理系統(tǒng)或方案,其主要目的是有序積存海量遙感數(shù)據(jù),便于未來發(fā)揮潛在價值。
01.
明確分類體系 CLASSIFICATION SYSTEM
“分類體系”的概念官方定義比較抽象,如果思維深度不夠,很難對它有一個全面的認知。簡單來說,“分類體系”可以理解為是針對于體系下的所有個體,按照某種特定的規(guī)律(如根據(jù)視覺、觸覺、聽覺等感官能力...)發(fā)現(xiàn)其可區(qū)分、可信的特征差異,從而進行分類。不同的分類體系對于同一個體可能會有不同的定義。 為什么說AI和遙感圖像具有天然的耦合性?因為不管是AI視覺算法還是傳統(tǒng)遙感圖像解譯,都是通過視覺能力的特性尋找要素的特征差異來實現(xiàn)分類。分類體系內(nèi)的類別越多、區(qū)分度越低,對應樣本數(shù)量就需要越多、模型訓練難度就會越大,所以如何編制出一套簡潔自洽、貼合業(yè)務的分類體系,是樣本庫建設中最重要的工作之一。而建設者需要“拉齊認知”,也就是需要將自身知識經(jīng)驗的無序狀態(tài)變?yōu)榻?jīng)過分類的有序狀態(tài),以完成標準統(tǒng)一的認知過程。
遙感業(yè)務場景多樣,不同的業(yè)務場景對于最終的成果需求也會有所不同,建設者需對業(yè)務規(guī)則充分了解,使之與AI算法有機結(jié)合,從而明確出適合業(yè)務的分類體系。遙感行業(yè)常見的分類體系有地理國情普查分類體系和三次國土調(diào)查分類體系,作為兩項重大的國情國力調(diào)查,目的都是為了查清我國自然資源家底,并且年度地理國情監(jiān)測調(diào)查和年度國土變更調(diào)查分別是這兩項重大調(diào)查工作的年度信息更新手段,確保我國的自然資源數(shù)據(jù)的實時性。這兩項調(diào)查工作都對土地利用情況進行了分類,但是兩者在側(cè)重點上各有不同:
地理國情普查側(cè)重于反映土地的植被覆蓋及使用情況,從土地本身的自然特征著手,其分類偏向于自然屬性;
第三次國土調(diào)查(土地利用現(xiàn)狀)側(cè)重于從管理的屬性出發(fā),目的是真實的反映土地的利用狀況及潛力,其分類偏向于社會經(jīng)濟屬性。
兩種分類體系的異同分析可參考【地理國情普查與三調(diào)數(shù)據(jù)的共享探析】
當然,有的業(yè)務規(guī)則可能會將兩種分類體系結(jié)合使用,或者在此基礎(chǔ)上延伸出其它變種分類體系。究其根本,不管使用何種分類體系,都須要滿足這樣幾點原則:
Ⅰ.所有類別能通過目視區(qū)分,不摻雜人為主觀判斷力和經(jīng)驗;
Ⅱ.分類體系應自洽、客觀,避免“同物異類”情形;
Ⅲ.分類體系應涵蓋所有業(yè)務關(guān)注的地類,凡能精簡、歸并的地類盡量歸并;
Ⅳ.分類體系一旦確定,盡可能不改、小改。
02.
制定標注規(guī)則 STANDARD RULES
沒有明確分類體系的業(yè)務規(guī)則都是“耍流氓”,分類體系是業(yè)務規(guī)則的根基。明確分類體系后,我們再來談談業(yè)務規(guī)則。不同的遙感業(yè)務對于其規(guī)則的制定也有所不同,比如土地衛(wèi)片執(zhí)法、國土變更調(diào)查、重要生態(tài)空間人類活動變化監(jiān)測、城市違建監(jiān)測等。大多數(shù)情況下,最終制定出的標注規(guī)則=AI原則+業(yè)務規(guī)則(+特殊場景說明),即站在AI算法的角度先約束幾條原則,再按照業(yè)務規(guī)則的作業(yè)要求去標注,有些復雜的業(yè)務場景下還需要補充一些特殊說明,防止邏輯混亂。要遵循的AI原則主要有如下幾點:
Ⅰ.所見即所得
標注員僅通過目視影像標注,不參考影像之外的其他數(shù)據(jù)(如三調(diào)數(shù)據(jù)庫),不摻雜人為主觀的經(jīng)驗和知識標注。
Ⅱ.統(tǒng)一可區(qū)分
標注員之間應形成對規(guī)則統(tǒng)一的理解和認知,避免相互沖突;標注員自身時刻也要統(tǒng)一一套作業(yè)準則,避免自相矛盾。
Ⅲ.標簽完整性
用作訓練的影像,盡量避免 “漏標注”和“錯標注”,以免降低模型效果。
Ⅳ.變化可逆性
所有變化圖斑可逆,不區(qū)分前后影像類別先后順序,如“建筑變耕地”和“耕地變建筑”可理解為是同一類變化。
03.
樣本選擇 SAMPLE SELECTION
樣本的選擇一定程度上關(guān)乎著樣本標注的成本和最終模型的效果,按照一個正確的思路去進行樣本的選擇,是整個樣本庫建設工作的基礎(chǔ)保障。關(guān)于樣本的選擇,如不考慮影像獲取的難度和矢量采集成本,在適合標注規(guī)則的前提下本著“越多越好”的原則;如果考慮成本,關(guān)于樣本的選擇可遵循以下原則:
Ⅰ.充分分析業(yè)務場景范圍內(nèi)的影像各維度特征,優(yōu)先選擇強代表性的樣本;
(影像維度包括:傳感器、時空分辨率、地區(qū)、地形地貌等等,強代表性指的是最貼合實際業(yè)務場景各維度的影像)
Ⅱ.綜合考慮分類體系下的類內(nèi)多樣性、類間差異性問題,更多選擇分類難度大的樣本。
①類內(nèi)多樣性:類內(nèi)多樣性越多,訓練難度越高;反之越低。比如耕地,受不同季節(jié)、分辨率、地區(qū)、成像條件等因素影響,會出現(xiàn)多種特征形態(tài);而像一些形態(tài)單一的特定類別比如籃球場、風車等,故訓練難度低。
②類間差異性:類間差異性越大,訓練難度越低;反之越高。比如耕園林草之間差異性較小,建筑和道路差異性較大,礦石開采與尾礦堆放地差異性較小等等;對于差異性較小的地類間,首先確定人類能夠目視可區(qū)分,其次可以額外增加此類樣本。
Ⅲ.適當選擇制作在實際業(yè)務場景中對模型檢出干擾性較強的負樣本,如陰影、季節(jié)性差異、自然氣象、人類臨時性活動.......
當然了,當你的樣本量足夠多足夠大,以上這些類似于“特征工程”的工作其重要性占比就越小,這也是深度學習的優(yōu)勢之一。所以更多時候,樣本數(shù)量的優(yōu)先級往往要高于樣本質(zhì)量,當樣本數(shù)量多出一個量級時,是能夠遠遠彌補在樣本質(zhì)量上落后的那幾個點。
04.
樣本庫管理 SAMPLE LIBRARY
以上三個環(huán)節(jié)是針對某一個具體的遙感業(yè)務或項目所闡述的樣本標注思路,樣本標注的最終目的也就是訓練出一個適合業(yè)務生產(chǎn)的高精度AI模型。而隨著業(yè)務的逐漸增多,樣本庫的管理也成了一項繞不開的難題。樣本庫管理是一個長期的工作,需要有顧全局的意識,其主要目的是讓所有多樣化的樣本能夠有條不紊的分類入庫,并且形成規(guī)范,以容納未來更多的樣本,便于在后續(xù)調(diào)用的時候,能夠滿足快速、方便、靈活等特點。樣本庫管理方式可以依托于智能化的平臺、系統(tǒng),也可以采用最樸素的文件夾存儲管理方式,不管哪種方式,其管理的底層邏輯一般都按以下三個層級去劃分:
層級1——按樣本類型
層級2——按分類體系/業(yè)務
層級3——按影像屬性
除此之外,樣本庫建設工作還包括數(shù)據(jù)預處理、標注團隊組建、質(zhì)量控制、樣本規(guī)格統(tǒng)一等等,這些內(nèi)容也都不可或缺,但對于經(jīng)歷過測繪遙感相關(guān)項目的人員來說這些都不算難題。將以上所有內(nèi)容串聯(lián)起來,再結(jié)合建設者自身對行業(yè)的理解,就可以構(gòu)建出一套完整的樣本庫方案了。
注:此篇文章內(nèi)容均為作者主觀闡述總結(jié),請各位讀者批判性吸收,歡迎一起交流學習!