中國教育在線
中國教育在線
高層次人才招聘會
第四輪學(xué)科評估
學(xué)術(shù)橋人才評審評估
海外學(xué)者中國行
高層次人才網(wǎng)絡(luò)視頻招聘會
潘云鶴:攻克人工智能“視覺知識”五大難題
2021-06-08
中國科學(xué)報

  近年來,圖像識別水平的快速提升推動人工智能熱潮形成,圖像識別技術(shù)的突破不僅提高了計算機對人臉、文字、指紋及生物特征、醫(yī)學(xué)圖片等識別的準確率,而且進一步推動了安全監(jiān)控、智能交通、無人機、智能制造等廣泛領(lǐng)域的發(fā)展。但也遇到進一步發(fā)展,如可解釋、可分析綜合、可設(shè)計仿真等等挑戰(zhàn)。

  對此,在中國工程院信息與電子工程前沿學(xué)術(shù)期刊上,中國工程院院士、浙江大學(xué)教授潘云鶴提出了“視覺知識”概念,他認為實現(xiàn)視覺知識表達、推理、學(xué)習(xí)和應(yīng)用技術(shù)將是人工智能 2.0 取得突破的重要關(guān)鍵之處。近日,潘云鶴在接受《中國科學(xué)報》專訪時,詳細闡述了“視覺知識”發(fā)展面臨的5個基本問題。

  “認知心理學(xué)早已指出,心象是人類知識記憶的重要部分,被用來進行形象思維。視覺知識就是計算機對心象的模擬。因此,基于視覺的人工智能是人工智能發(fā)展繞不開的課題,且具有重要意義?!迸嗽弃Q指出。

  潘云鶴認為,視覺知識表達是第一大問題。與當(dāng)今人工智能所用的知識表達方式不同,視覺知識概念具有典型與范疇結(jié)構(gòu)、層次結(jié)構(gòu)與動作結(jié)構(gòu)等要素。視覺概念能構(gòu)成視覺命題,包括場景結(jié)構(gòu)與動態(tài)結(jié)構(gòu);視覺命題能構(gòu)成視覺敘事,例如無聲電影就是視覺敘事的顯示形式。

  視覺知識不同于言語知識的特征是能表達對象的大小、色彩、紋理、空間形狀及關(guān)系;能表達對象的動作、速度及時間關(guān)系;能進行對象的時空變換、操作與推理等。事實上,人類記憶中儲存的視覺知識遠多于言語知識。

  視覺識別是第二個問題。

  “從人工智能早期開始,模式識別便是其中一個最重要的研究領(lǐng)域,其中圖象和視頻識別是發(fā)展最快的方向?!迸嗽弃Q表示,近來,深度學(xué)習(xí)所提供的方法:用大量標(biāo)識的圖像訓(xùn)練出深度神經(jīng)網(wǎng)絡(luò)模型用于圖象識別,顯著提高了正確率,已獲廣泛應(yīng)用。

  但與深度神經(jīng)網(wǎng)絡(luò)模型方法不盡相同,人類在工作記憶中進行視覺識別時,不僅分析視網(wǎng)膜即時感知后傳入短期記憶中的數(shù)據(jù),而且激活了長期記憶中過去學(xué)到的并記住的相關(guān)心象,即視覺知識。因此,人類在完成視覺識別任務(wù)時往往只需少量數(shù)據(jù),而且可解釋,也可推理。

  潘云鶴說,在視覺識別中,不但使用數(shù)據(jù),而且協(xié)同使用視覺知識,形成數(shù)據(jù)驅(qū)動和視覺知識指導(dǎo)的協(xié)同計算范式是視覺識別的重要的研究方向。

  第三、四個問題分別是視覺形象思維模擬、視覺知識的學(xué)習(xí)。

  潘云鶴指出,視覺形象思維模擬在計算機輔助設(shè)計和仿真、計算機動畫、游戲、兒童教育和數(shù)字媒體創(chuàng)意等領(lǐng)域應(yīng)用十分廣泛,計算機圖形學(xué)已儲備很多基礎(chǔ)技術(shù),但有待與人工智能打通。一旦實現(xiàn),有望打開新一代設(shè)計、仿真、教育、創(chuàng)意等軟件的發(fā)展新空間。

  “視覺知識學(xué)習(xí)則要將目標(biāo)從三維形狀的重建任務(wù)提升到視覺知識概念和命題的重建?!迸嗽弃Q指出,這就需要對現(xiàn)有計算機視覺技術(shù)做進一步研究:不僅要重建3D 形狀,而且要重構(gòu) 3D 形狀的概念結(jié)構(gòu)與層次結(jié)構(gòu)。在此基礎(chǔ)上,有望發(fā)展出視覺知識的自動學(xué)習(xí)手段,“當(dāng)前的場景圖研究是向視覺知識自動學(xué)習(xí)前進的一個合適的中間方法,當(dāng)今特別需要人工智能、計算機圖形學(xué)和計算機視覺3 個領(lǐng)域的研究者們聯(lián)手研究?!?/p>

  多重知識表達是第五大問題。

  潘云鶴認為,人腦中的知識往往是通過多重表達來描述. 因此,人工智能2.0的知識應(yīng)有多種表達方式,包括知識的言語表達、知識的深度神經(jīng)網(wǎng)絡(luò)表達、知識的形象表達等,多重知識表達將形成跨媒體智能和大數(shù)據(jù)智能新的技術(shù)理論和模型。

  “視覺知識和多重知識表達的研究是發(fā)展新的視覺智能的關(guān)鍵,也是促進人工智能 2.0取得重要突破的關(guān)鍵理論與技術(shù)。”潘云鶴表示,視覺知識的獨特優(yōu)點是具有形象的綜合生成能力、時空演化能力和形象顯示能力,人工智能與計算機視覺、計算機輔助設(shè)計、計算機圖形學(xué)技術(shù)聯(lián)合,將為人工智能在創(chuàng)造、預(yù)測和人機融合等方面的新發(fā)展提供重要的新基礎(chǔ)新動力。

  “視覺知識是一塊寒濕而肥沃的人工智能的‘北大荒’,也是一塊充滿希望、值得多學(xué)科合作勇探的‘無人區(qū)’?!迸嗽弃Q呼吁道。

免責(zé)聲明:

① 凡本站注明“稿件來源:中國教育在線”的所有文字、圖片和音視頻稿件,版權(quán)均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本站協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時必須注明“稿件來源:中國教育在線”,違者本站將依法追究責(zé)任。

② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉(zhuǎn)載稿,本站轉(zhuǎn)載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性。如轉(zhuǎn)載稿涉及版權(quán)等問題,請作者在兩周內(nèi)速來電或來函聯(lián)系。

職位檢索
單位性質(zhì)
單位檢索
地區(qū)選擇
學(xué)科檢索
學(xué)歷要求
職位搜索
人才速遞
相關(guān)新聞