彭宇新:視覺-語言相互生成技術
來源: 時間:2022-07-16

報告時間:2022年7月17日(星期日)14:00-14:40

報告平臺:騰訊會議ID:760-580-457

報告人:彭宇新教授

工作單位:北京大學

舉辦單位:軟件學院

報告簡介

隨著深度學習等技術的發(fā)展,計算機在圖像分類、對象識別等任務中取得了接近甚至超越人類的成績,但如何賦予人工智能具有突破固定規(guī)則的“創(chuàng)意”,使人工智能從“感知智能”邁向“認知智能”是計算機視覺領域的重要任務。視覺-語言相互生成技術旨在使計算機能夠根據(jù)用戶給定的輸入進行“聯(lián)想”與“創(chuàng)造”,能夠根據(jù)圖像、視頻等視覺內(nèi)容自動生成一段自然語言描述,實現(xiàn)視覺到語言生成;或者根據(jù)一段自然語言描述從無到有地自動生成語義一致、內(nèi)容真實、符合邏輯的圖像、視頻、3D圖形,實現(xiàn)語言到視覺生成。這是人工智能實現(xiàn) “認知智能”的一項重要任務,在教育、設計、影視、創(chuàng)作等領域具有重要的應用價值。本報告將介紹我們在視覺-語言相互生成技術上的研究工作:在視覺到語言生成上,提出對象感知雙向圖和層次化視覺-語言對齊等方法,通過視頻時空信息建模和語義一致性建模,實現(xiàn)準確的視頻描述生成。在文本到視覺生成上,提出對稱蒸餾網(wǎng)絡等方法,將相關視覺任務中的語義知識遷移至生成任務中,提高圖像與視頻生成的質(zhì)量。最后展示相關的演示系統(tǒng)。

報告人簡介

彭宇新,北京大學二級教授、博雅特聘教授、國家杰出青年科學基金獲得者、科技部中青年科技創(chuàng)新領軍人才、863項目首席專家、中國人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟專家委員會主任、中國工程院“人工智能2.0”規(guī)劃專家委員會專家、北京圖象圖形學學會副理事長、中國圖象圖形學學會會士、副秘書長、提名與獎勵委員會副主任。主要研究方向為跨媒體分析與推理、圖像視頻識別與理解、計算機視覺、人工智能。以第一完成人獲2016年北京市科學技術一等獎和2020年中國電子學會科技進步一等獎,2008年獲北京大學寶鋼獎教金優(yōu)秀獎,2017年獲北京大學教學優(yōu)秀獎。主持了863、國家自然科學基金重點等20多個項目,發(fā)表論文160多篇,包括ACM/IEEE Trans和CCF A類論文70多篇。多次參加由美國國家標準技術局NIST舉辦的國際評測TRECVID視頻樣例搜索比賽,均獲第一名。主持研發(fā)的跨媒體互聯(lián)網(wǎng)內(nèi)容分析與識別系統(tǒng)已經(jīng)應用于公安部、工信部、國家廣播電視總局等單位。擔任IEEE TCSVT等期刊編委。

Copyright @ 2023 rxy.hfut.edu.cn All Rights Reserved 版權所有: 合肥工業(yè)大學軟件學院

湘西| 宣威市| 平乡县| 宁乡县| 本溪| 梨树县| 苗栗县| 鸡西市| 长春市| 原平市| 山丹县| 平和县| 罗山县| 洛隆县| 吴堡县| 延安市| 甘谷县| 若羌县| 交城县| 遂昌县| 富锦市| 翼城县| 七台河市| 济宁市| 东方市| 中山市| 涟源市| 安福县| 南京市| 桑植县| 扶余县| 娄底市| 新郑市| 米泉市| 合山市| 儋州市| 兖州市| 鹤壁市| 白城市| 资兴市| 卫辉市|