主題:多媒體計(jì)算前沿進(jìn)展
時(shí)間:2022年7月17日(星期日)14:00-17:30
承辦單位:合肥工業(yè)大學(xué) 軟件學(xué)院
地點(diǎn):合肥工業(yè)大學(xué)翡翠湖校區(qū)
會(huì)議形式:線上騰訊會(huì)議,會(huì)議室:760-580-457
時(shí)間 |
活動(dòng)安排 |
14:00 |
報(bào)告會(huì)開始 主持人:薛峰 教授 合肥工業(yè)大學(xué) 張高峰 副教授 合肥工業(yè)大學(xué) |
14:05-14:40 |
特邀講者:彭宇新 博士北京大學(xué)教授 報(bào)告題目:視覺-語言相互生成技術(shù) |
14:40-14:50 |
提問環(huán)節(jié) |
14:50-15:30 |
特邀講者:李澤超博士 南京理工大學(xué)教授 報(bào)告題目:開放環(huán)境多媒體內(nèi)容理解 |
15:30-15:40 |
提問環(huán)節(jié) |
15:40-16:20 |
特邀講者:楊巨峰博士 南開大學(xué)教授 報(bào)告題目:視覺情感計(jì)算 |
16:20-16:30 |
提問環(huán)節(jié) |
16:30-17:10 |
特邀講者:郝艷賓博士中國(guó)科學(xué)技術(shù)大學(xué)副研究員 報(bào)告題目:深度視覺模型的上下文關(guān)系增強(qiáng) |
17:10-17:20 |
提問環(huán)節(jié) |
17:20-17:30 |
總結(jié):薛峰 教授 合肥工業(yè)大學(xué) |
講者/報(bào)告信息

講者簡(jiǎn)介:彭宇新,北京大學(xué)二級(jí)教授、博雅特聘教授、國(guó)家杰出青年科學(xué)基金獲得者、科技部中青年科技創(chuàng)新領(lǐng)軍人才、863項(xiàng)目首席專家、中國(guó)人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟專家委員會(huì)主任、中國(guó)工程院“人工智能2.0”規(guī)劃專家委員會(huì)專家、北京圖象圖形學(xué)學(xué)會(huì)副理事長(zhǎng)、中國(guó)圖象圖形學(xué)學(xué)會(huì)會(huì)士、副秘書長(zhǎng)、提名與獎(jiǎng)勵(lì)委員會(huì)副主任。主要研究方向?yàn)榭缑襟w分析與推理、圖像視頻識(shí)別與理解、計(jì)算機(jī)視覺、人工智能。以第一完成人獲2016年北京市科學(xué)技術(shù)一等獎(jiǎng)和2020年中國(guó)電子學(xué)會(huì)科技進(jìn)步一等獎(jiǎng),2008年獲北京大學(xué)寶鋼獎(jiǎng)教金優(yōu)秀獎(jiǎng),2017年獲北京大學(xué)教學(xué)優(yōu)秀獎(jiǎng)。主持了863、國(guó)家自然科學(xué)基金重點(diǎn)等20多個(gè)項(xiàng)目,發(fā)表論文160多篇,包括ACM/IEEE Trans和CCF A類論文70多篇。多次參加由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局NIST舉辦的國(guó)際評(píng)測(cè)TRECVID視頻樣例搜索比賽,均獲第一名。主持研發(fā)的跨媒體互聯(lián)網(wǎng)內(nèi)容分析與識(shí)別系統(tǒng)已經(jīng)應(yīng)用于公安部、工信部、國(guó)家廣播電視總局等單位。擔(dān)任IEEE TCSVT等期刊編委。。
報(bào)告題目:視覺-語言相互生成技術(shù)
報(bào)告摘要:隨著深度學(xué)習(xí)等技術(shù)的發(fā)展,計(jì)算機(jī)在圖像分類、對(duì)象識(shí)別等任務(wù)中取得了接近甚至超越人類的成績(jī),但如何賦予人工智能具有突破固定規(guī)則的“創(chuàng)意”,使人工智能從“感知智能”邁向“認(rèn)知智能”是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù)。視覺-語言相互生成技術(shù)旨在使計(jì)算機(jī)能夠根據(jù)用戶給定的輸入進(jìn)行“聯(lián)想”與“創(chuàng)造”,能夠根據(jù)圖像、視頻等視覺內(nèi)容自動(dòng)生成一段自然語言描述,實(shí)現(xiàn)視覺到語言生成;或者根據(jù)一段自然語言描述從無到有地自動(dòng)生成語義一致、內(nèi)容真實(shí)、符合邏輯的圖像、視頻、3D圖形,實(shí)現(xiàn)語言到視覺生成。這是人工智能實(shí)現(xiàn) “認(rèn)知智能”的一項(xiàng)重要任務(wù),在教育、設(shè)計(jì)、影視、創(chuàng)作等領(lǐng)域具有重要的應(yīng)用價(jià)值。本報(bào)告將介紹我們?cè)谝曈X-語言相互生成技術(shù)上的研究工作:在視覺到語言生成上,提出對(duì)象感知雙向圖和層次化視覺-語言對(duì)齊等方法,通過視頻時(shí)空信息建模和語義一致性建模,實(shí)現(xiàn)準(zhǔn)確的視頻描述生成。在文本到視覺生成上,提出對(duì)稱蒸餾網(wǎng)絡(luò)等方法,將相關(guān)視覺任務(wù)中的語義知識(shí)遷移至生成任務(wù)中,提高圖像與視頻生成的質(zhì)量。最后展示相關(guān)的演示系統(tǒng)。

講者簡(jiǎn)介:李澤超,南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院(人工智能學(xué)院)教授、博士生導(dǎo)師,“社會(huì)安全信息感知與系統(tǒng)”工信部重點(diǎn)實(shí)驗(yàn)室副主任,分別于2008年和2013年畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)和中國(guó)科學(xué)院自動(dòng)化研究所。研究興趣主要是媒體智能分析、計(jì)算機(jī)視覺等。發(fā)表ACM/IEEE Transactions或者CCF A類會(huì)議論文70余篇;入選愛思唯爾中國(guó)高被引學(xué)者;獲得三次省部級(jí)一等獎(jiǎng)、2018年吳文俊人工智能優(yōu)秀青年獎(jiǎng)等;主持國(guó)家自然科學(xué)基金聯(lián)合基金重點(diǎn)項(xiàng)目、江蘇省杰出青年基金等;擔(dān)任IEEE TNNLS、Information Sciences編委。
報(bào)告題目:開放環(huán)境多媒體內(nèi)容理解
報(bào)告摘要:圖像視頻大數(shù)據(jù)智能分析與理解在多種實(shí)際應(yīng)用中具有至關(guān)重要的作用,比如無人駕駛、網(wǎng)絡(luò)空間內(nèi)容安全以及社會(huì)公共安全等。然而實(shí)際應(yīng)用情況是復(fù)雜開放的。為此,我們研究了開放環(huán)境下多媒體內(nèi)容分析與理解問題,主要是半監(jiān)督、小樣本和弱監(jiān)督條件下的圖像內(nèi)容分析,提出了半監(jiān)督特征學(xué)習(xí)方法、小樣本識(shí)別、深度協(xié)同因子分解模型,將圖像和標(biāo)簽映射到統(tǒng)一空間,同時(shí)解決圖像標(biāo)注、標(biāo)簽優(yōu)化、基于內(nèi)容的圖像檢索以及標(biāo)簽擴(kuò)展等多種任務(wù)。

講者簡(jiǎn)介:楊巨峰,南開大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,天津市媒體計(jì)算技術(shù)工程研究中心副主任,天津杰青、南開百青。研究方向是計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、多媒體計(jì)算,發(fā)表PAMI/CVPR等高水平學(xué)術(shù)論文50余篇。任中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺專委會(huì)副秘書長(zhǎng),中國(guó)圖象圖形學(xué)學(xué)會(huì)情感計(jì)算與理解專委會(huì)常務(wù)委員,中國(guó)中文信息學(xué)會(huì)情感計(jì)算專委會(huì)執(zhí)行委員,中國(guó)計(jì)算機(jī)視覺大會(huì)(CCCV 2017)組織主席,視覺與學(xué)習(xí)青年研討會(huì)(VALSE 2022)Workshop主席。研究成果獲第十屆吳文俊人工智能自然科學(xué)二等獎(jiǎng)。
報(bào)告題目:視覺情感計(jì)算
報(bào)告摘要:視覺是人類感知、表達(dá)和傳遞情感的重要途徑。與人臉表情識(shí)別任務(wù)不同,廣義視覺情感計(jì)算涉及的對(duì)象更復(fù)雜,面臨的挑戰(zhàn)也更多,成為多媒體領(lǐng)域一個(gè)新興和熱點(diǎn)問題。從情感的主觀性、抽象性、模糊性等特點(diǎn)出發(fā),我們對(duì)該問題進(jìn)行了初步探索,構(gòu)建了幾個(gè)有趣的應(yīng)用,部分地解決了開放環(huán)境視覺情感計(jì)算的難題。以課題組今年的幾個(gè)最新工作為例,匯報(bào)我們的研究進(jìn)展并就未來可能的方向進(jìn)行討論。

講者簡(jiǎn)介:郝艷賓,中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院特任副研究員。分別于2012年和2017年畢業(yè)于合肥工業(yè)大學(xué)工學(xué)。攻讀博士學(xué)位期間(2015-2017),他作為“111”計(jì)劃和國(guó)家留學(xué)基金委資助的聯(lián)合培養(yǎng)博士在英國(guó)利物浦大學(xué)交流學(xué)習(xí)。從2018年到2020年,加入了香港城市大學(xué)電腦科學(xué)系VIREO實(shí)驗(yàn)室做博士后研究。研究方向?yàn)槎嗝襟w內(nèi)容分析、檢索和識(shí)別。發(fā)表IEEE/ACM Transactions或者CCF A類會(huì)議論文20余篇。 主持國(guó)家自然科學(xué)基金青年基金項(xiàng)目、省級(jí)高校協(xié)同創(chuàng)新項(xiàng)目,作為子課題負(fù)責(zé)人主持科技部重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、國(guó)家自然科學(xué)基金委聯(lián)合基金項(xiàng)目。擔(dān)任頂級(jí)期刊如TNNLS、TMM、TKDE等審稿人,多次擔(dān)任CCF A類會(huì)議如CVPR、ICCV、ECCV、ACMMM、AAAI等程序委員或?qū)徃迦恕?/p>
報(bào)告題目:深度視覺模型的上下文關(guān)系增強(qiáng)
報(bào)告摘要:深度視覺模型是深度視覺識(shí)別系統(tǒng)的核心,是圖像視頻數(shù)據(jù)相關(guān)任務(wù)的基礎(chǔ)組件,其很大程度上決定了業(yè)界的發(fā)展。當(dāng)前主流的深度視覺基礎(chǔ)模型主要包括Vision MLP, Vision Transformer和CNN。此三類模型沿用了不同的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),因此具有差異化的視覺上下文關(guān)系感知能力。本報(bào)告將介紹我們團(tuán)隊(duì)在有針對(duì)性提升視覺深度模型的視覺上下文關(guān)系建模方面的研究工作:在圖像處理上,提出PosMLP模型,設(shè)計(jì)基于相對(duì)位置編碼的夸視覺詞塊關(guān)系建模方法,提升基線VisionMLP模型的性能;在視頻處理上,針對(duì)Vision Transformer,提出Token Shift組件,實(shí)現(xiàn)視頻時(shí)空上下文關(guān)系感知與建模,針對(duì)CNN,提出多軸向上下文關(guān)系校準(zhǔn)器,以分組校準(zhǔn)模式顯著提升二模型對(duì)三維視覺的感知建模能力。