報告時間:2022年7月17日(星期日)16:30-17:10
報告平臺:騰訊會議ID:760-580-457
報告人:郝艷賓副研究員
工作單位:中國科學技術大學
舉辦單位:軟件學院
報告簡介:
深度視覺模型是深度視覺識別系統(tǒng)的核心,是圖像視頻數(shù)據(jù)相關任務的基礎組件,其很大程度上決定了業(yè)界的發(fā)展。當前主流的深度視覺基礎模型主要包括Vision MLP, Vision Transformer和CNN。此三類模型沿用了不同的深度神經(jīng)網(wǎng)絡架構,因此具有差異化的視覺上下文關系感知能力。本報告將介紹我們團隊在有針對性提升視覺深度模型的視覺上下文關系建模方面的研究工作:在圖像處理上,提出PosMLP模型,設計基于相對位置編碼的夸視覺詞塊關系建模方法,提升基線Vision MLP模型的性能;在視頻處理上,針對Vision Transformer,提出Token Shift組件,實現(xiàn)視頻時空上下文關系感知與建模,針對CNN,提出多軸向上下文關系校準器,以分組校準模式顯著提升二模型對三維視覺的感知建模能力。
報告人簡介:
郝艷賓,中國科學技術大學信息科學技術學院特任副研究員。分別于2012年和2017年畢業(yè)于合肥工業(yè)大學工學。攻讀博士學位期間(2015-2017),他作為“111”計劃和國家留學基金委資助的聯(lián)合培養(yǎng)博士在英國利物浦大學交流學習。從2018年到2020年,加入了香港城市大學電腦科學系VIREO實驗室做博士后研究。研究方向為多媒體內(nèi)容分析、檢索和識別。發(fā)表IEEE/ACM Transactions或者CCF A 類會議論文20余篇。 主持國家自然科學基金青年基金項目、省級高校協(xié)同創(chuàng)新項目,作為子課題負責人主持科技部重點研發(fā)計劃項目、國家自然科學基金委聯(lián)合基金項目。擔任頂級期刊如TNNLS、TMM、TKDE等審稿人,多次擔任CCF A類會議如CVPR、ICCV、ECCV、ACMMM、AAAI等程序委員或審稿人。