報(bào)告時(shí)間:2022年7月17日(星期日)16:30-17:10
報(bào)告平臺(tái):騰訊會(huì)議ID:760-580-457
報(bào)告人:郝艷賓副研究員
工作單位:中國(guó)科學(xué)技術(shù)大學(xué)
舉辦單位:軟件學(xué)院
報(bào)告簡(jiǎn)介:
深度視覺(jué)模型是深度視覺(jué)識(shí)別系統(tǒng)的核心,是圖像視頻數(shù)據(jù)相關(guān)任務(wù)的基礎(chǔ)組件,其很大程度上決定了業(yè)界的發(fā)展。當(dāng)前主流的深度視覺(jué)基礎(chǔ)模型主要包括Vision MLP, Vision Transformer和CNN。此三類(lèi)模型沿用了不同的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),因此具有差異化的視覺(jué)上下文關(guān)系感知能力。本報(bào)告將介紹我們團(tuán)隊(duì)在有針對(duì)性提升視覺(jué)深度模型的視覺(jué)上下文關(guān)系建模方面的研究工作:在圖像處理上,提出PosMLP模型,設(shè)計(jì)基于相對(duì)位置編碼的夸視覺(jué)詞塊關(guān)系建模方法,提升基線Vision MLP模型的性能;在視頻處理上,針對(duì)Vision Transformer,提出Token Shift組件,實(shí)現(xiàn)視頻時(shí)空上下文關(guān)系感知與建模,針對(duì)CNN,提出多軸向上下文關(guān)系校準(zhǔn)器,以分組校準(zhǔn)模式顯著提升二模型對(duì)三維視覺(jué)的感知建模能力。
報(bào)告人簡(jiǎn)介:
郝艷賓,中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院特任副研究員。分別于2012年和2017年畢業(yè)于合肥工業(yè)大學(xué)工學(xué)。攻讀博士學(xué)位期間(2015-2017),他作為“111”計(jì)劃和國(guó)家留學(xué)基金委資助的聯(lián)合培養(yǎng)博士在英國(guó)利物浦大學(xué)交流學(xué)習(xí)。從2018年到2020年,加入了香港城市大學(xué)電腦科學(xué)系VIREO實(shí)驗(yàn)室做博士后研究。研究方向?yàn)槎嗝襟w內(nèi)容分析、檢索和識(shí)別。發(fā)表IEEE/ACM Transactions或者CCF A 類(lèi)會(huì)議論文20余篇。 主持國(guó)家自然科學(xué)基金青年基金項(xiàng)目、省級(jí)高校協(xié)同創(chuàng)新項(xiàng)目,作為子課題負(fù)責(zé)人主持科技部重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、國(guó)家自然科學(xué)基金委聯(lián)合基金項(xiàng)目。擔(dān)任頂級(jí)期刊如TNNLS、TMM、TKDE等審稿人,多次擔(dān)任CCF A類(lèi)會(huì)議如CVPR、ICCV、ECCV、ACMMM、AAAI等程序委員或?qū)徃迦恕?/p>