视觉理解团队

合肥工业大学 (HFUT)

媒体计算实验室 (LMC)

访问英文版 [English]

简介

视觉理解团队致力于通过计算机视觉和自然语言处理技术来理解、生成和转换多媒体内容。我们致力于手语翻译、图像/视频描述、视觉对话、视频定位和视觉问答等课题的研究，已发表超过20篇国际学术期刊和会议论文，包括IEEE TPAMI、IEEE TIP、IEEE TMM、ACM TOMCCAP、CVPR、AAAI、IJCAI、ACM MM等。

新闻

2021年10月： 论文《Graph-Based Multimodal Sequential Embedding for Sign Language Translation》被多媒体领域TOP期刊IEEE TMM录用。

2021年8月： 论文《Pairwise VLAD Interaction Network for Video Question Answering》被多媒体领域TOP会议ACM MM 2021录用。

2021年6月： 论文《Context-Aware Graph Inference with Knowledge Distillation for Visual Dialog》被人工智能领域TOP期刊IEEE TPAMI录用。

2020年12月： 论文《Proposal-Free Video Grounding with Contextual Pyramid Network》被人工智能领域TOP会议AAAI 2021录用。

2020年4月： 论文《Recurrent Relational Memory Network for Unsupervised Image Captioning》被人工智能领域TOP会议IJCAI 2020录用。

2020年2月： 论文《Iterative Context-Aware Graph Inference for Visual Dialog》被计算机视觉领域TOP会议CVPR 2020录用。

研究


	手语翻译与生成本部分涵盖与手语识别相关的研究，主要是连续手语翻译（CSLT）。为了提高离散手语词的识别准确性，一些早期的工作设计了一种自适应隐马尔可夫模型（HMM）框架。这些方法可以充分探索隐藏手语状态之间的内在属性和互补关系。 CSLT面临着混合语义学习带来的挑战，其中包括视觉表示、手语语言学和文本语法的顺序变化······ [详细]
	视觉问答与对话本部分涵盖与跨媒体视觉推理相关的研究，主要包括基于图像/视频的问答和对话生成。 [Details]
	视觉描述生成本部分涵盖与视觉描述生成相关的研究，主要是指根据图像/视频的内容自动生成文本的描述，最新的工作包括跨语言的视觉字幕生成和情感视频描述等。 [Details]
	视觉理解与分析本部分涵盖与视觉内容理解相关的研究，包括基于图像的人群基数、基于图像的视觉对象定位、文本引导下的视频动作定位等。 [Details]

成员

教师

状态	姓名	联系方式	研究方向
教授	郭丹	guodan@hfut.edu.cn	机器视觉、机器学习、深度学习、模式识别
讲师	唐申庚	tangsg@hfut.edu.cn	手语翻译与生成、AIGC
讲师	徐静远	xujingyuan@hfut.edu.cn	医学图像处理、体态分析

学生

状态	姓名	联系方式	研究方向
博士研究生	张静	--	图像描述
博士研究生	周晟	--	文本视觉问答
博士研究生	钱威	--	远程生理信号估计
博士研究生	胡晶晶	--	音视频事件定位
硕士研究生	李张斌	--	音视频问答
硕士研究生	王飞	--	运动放大
硕士研究生	刘飞扬	--	视线估计
硕士研究生	陈国良	--	微动作分析
硕士研究生	孙甲慧	--	视频描述生成

毕业生

届别	姓名	就职单位
2020届硕士毕业生	熊成鑫	中国移动
2020届硕士毕业生	裴现坤	上海浦发银行
2021届硕士毕业生	严士涵	徽商银行
2021届硕士毕业生	桂毓灵	--
2021届硕士毕业生	朋帆	中国邮政储蓄银行
2022届硕士毕业生	姚沈涛	科大讯飞
2023届硕士毕业生	郭义臣	中国移动
2023届博士毕业生	宋培培	中国科学技术大学
2022届博士毕业生	李坤	-
2023届博士毕业生	周金星	-
2023届博士毕业生	王辉	-
2023届硕士毕业生	卢天一	-

出版物

会议论文：

Jinxing Zhou, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Meng Wang*, and Yiran Zhong*, "Audio−Visual Segmentation", European Conference on Computer Vision (ECCV), 2022. [Code]
Shengeng Tang, Richang Hong*, Dan Guo*, and Meng Wang, "Gloss Semantic-Enhanced Network with Online Back-Translation for Sign Language Production", ACM International Conference on Multimedia (ACM MM), 2022.
Hui Wang, Dan Guo, Xiansheng Hua, and Meng Wang, "Pairwise VLAD Interaction Network for Video Question Answering", ACM International Conference on Multimedia (ACM MM), 2021.
Kun Li, Dan Guo, and Meng Wang, "Proposal-Free Video Grounding with Contextual Pyramid Network", AAAI Conference on Artificial Intelligence (AAAI), 2021.
Dan Guo, Yang Wang, Peipei Song, and Meng Wang, "Recurrent Relational Memory Network for Unsupervised Image Captioning", International Joint Conference on Artificial Intelligence (IJCAI), 2020. [Link][PDF][BibTeX]
Dan Guo, Hui Wang, Hanwang Zhang, Zhengjun Zha, and Meng Wang, "Iterative Context-Aware Graph Inference for Visual Dialog", Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
Fan Peng, Kun Li, Xueliang Liu, and Dan Guo, "AOPNet: Anchor Offset Prediction Network for Temporal Action Proposal Generation", International Conference on Signal Processing, Communications and Computing (ICSPCC), 2020.
Yuling Gui, Dan Guo, and Ye Zhao, "Semantic Enhanced Encoder-Decoder Network (SEN) for Video Captioning", Workshop on Multimedia for Accessible Human Computer Interfaces (MAHCI), 2019.
Xiankun Pei, Dan Guo, and Ye Zhao, "Continuous Sign Language Recognition Based on Pseudo-supervised Learning", Workshop on Multimedia for Accessible Human Computer Interfaces (MAHCI), 2019.
Peipei Song, Dan Guo, Haoran Xin, and Meng Wang, "Parallel Temporal Encoder For Sign Language Translation", IEEE International Conference on Image Processing (ICIP), 2019. [Link][PDF][BibTeX]
Dan Guo, Kun Li, and Meng Wang, "DADNet：Dilated-Attention-Deformable ConvNet for Crowd Counting", ACM International Conference on Multimedia (ACM MM), 2019.
Dan Guo, Shengeng Tang,and Meng Wang, "Connectionist Temporal Modeling of Video and Language：A Joint Model for Translation and Sign Labeling", International Joint Conference on Artificial Intelligence (IJCAI), 2019. [Link][PDF][BibTeX]
Dan Guo, Shuo Wang, Qi Tian, and Meng Wang, "Dense Temporal Convolution Network for Sign Language Translation", International Joint Conference on Artificial Intelligence (IJCAI), 2019. [Link][PDF][BibTeX]
Dan Guo, Hui Wang, and Meng Wang, "Dual Visual Attention Network for Visual Dialog", International Joint Conference on Artificial Intelligence (IJCAI), 2019.
Shuo Wang, Dan Guo, Wengang Zhou, Zhengjun Zha, and Meng Wang, "Connectionist Temporal Fusion for Sign Language Translation", International ACM International Conference on Multimedia (ACM MM), 2018. [Link][PDF][BibTeX]
Dan Guo, Wengang Zhou, Houqiang Li, and Meng Wang, "Hierarchical LSTM for Sign Language Translation", AAAI Conference on Artificial Intelligence (AAAI), 2018. [Link][PDF][BibTeX]
Dan Guo, Wengang Zhou, Houqiang Li, and Meng Wang, "Sign Language Recognition Based on Adaptive HMMs with Data Augmentation", IEEE International Conference on Image Processing (ICIP), 2016. [Link][PDF][BibTeX]

期刊论文：

Kun Li, Jiaxiu Li, Dan Guo*, Xun Yang*, and Meng Wang, "Transformer-Based Visual Grounding with Cross-Modality Interaction", ACM Transactions on Multimedia Computing Communications and Applications (TOMCCAP), 2023. [Link]
Peipei Song, Dan Guo*, Jun Cheng, and Meng Wang*, "Contextual Attention Network for Emotional Video Captioning", IEEE Transactions on Multimedia (TMM), 2022.
Peipei Song, Dan Guo*, Jinxing Zhou, Mingliang Xu, and Meng Wang*, "Memorial GAN with Joint Semantic Optimization for Unpaired Image Captioning", IEEE Transactions on Cybernetics (TCYB), 2022.
Dan Guo, Hui Wang, and Meng Wang, "Context-Aware Graph Inference with Knowledge Distillation for Visual Dialog", IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021.[Link]
Shengeng Tang, Dan Guo, Richang Hong, and Meng Wang, "Graph-Based Multimodal Sequential Embedding for Sign Language Translation", IEEE Transactions on Multimedia (TMM), 2021.[Link][PDF][BibTeX]
Dan Guo, Hui Wang, Shuhui Wang, and Meng Wang, "Textual-Visual Reference-Aware Attention Network for Visual Dialog", IEEE Transactions on Image Processing (TIP), 2020.
Dan Guo, Wengang Zhou, Anyang Li, Houqiang Li, and Meng Wang, "Hierarchical Recurrent Deep Fusion Using Adaptive Clip Summarization for Sign Language Translation", IEEE Transactions on Image Processing (TIP), 2020. [Link][PDF][BibTeX]
Shuo Wang, Dan Guo, Xin Xu, Li Zhuo, and Meng Wang, "Cross-Modality Retrieval by Joint Correlation Learning", ACM Transactions on Multimedia Computing Communications and Applications (TOMCCAP), 2019. [Link][PDF][BibTeX]
Dan Guo, Wengang Zhou, Houqiang Li, and Meng Wang, "Online Early-Late Fusion Based on Adaptive HMM for Sign Language Recognition", ACM Transactions on Multimedia Computing Communications and Applications (TOMCCAP), 2018. [Link][PDF][BibTeX]
郭丹, 唐申庚, 洪日昌, 汪萌, "手语识别、翻译与生成综述", 计算机科学, 2021.[Link][PDF][BibTeX]
熊成鑫, 郭丹, 刘学亮, "时域候选优化的时序动作检测", 中国图象图形学报, 2020.[Link]
鲁志红, 郭丹, 汪萌, "基于加权运动估计和矢量分割的运动补偿内插算法", 自动化学报, 2015.[Link]

授权专利:

郭丹; 何梓贻; 倪友炜; 李坤; 徐梓鑫; 马嘉淇; 罗匡; 一种基于目标检测的碗碟清洗设备（实用新型）, 2023-5-12, 中国, ZL202220873705.4.
郭丹; 唐申庚; 刘祥龙; 洪日昌; 汪萌; 一种基于图卷积的多模态融合手语识别系统及方法, 2023-3-14, 中国, ZL202010049714.7.
郭丹; 唐申庚; 刘祥龙; 汪萌; 一种基于多层次语义解析的手语翻译系统及方法, 2023-3-28, 中国, ZL202010103960.6.
赵烨; 胡晓斌; 胡珍珍; 刘学亮; 郭丹; 郭艳蓉; 吴乐; 一种基于注意力模型的视频摘要描述生成方法及装置, 2022-12-9, 中国, ZL202110565400.7.
郭丹; 宋培培; 刘祥龙; 汪萌; 基于递归记忆网络的无监督图像描述模型的生成方法, 2022-3-15, 中国, ZL202010049142.2.
郭丹; 宋培培; 刘祥龙; 汪萌; 基于数据自驱动的多阶特征动态融合手语翻译方法, 2022-3-15, 中国, ZL202010096391.7.
郭丹; 王辉; 汪萌; 一种基于上下文感知图神经网络的视觉对话生成方法, 2021-6-8, 中国, ZL201910881298.4.
郭丹; 李坤; 汪萌; 一种基于多尺度注意力机制的人群密度估计方法, 2021-3-9, 中国, ZL201910531606.0.
郭丹; 宋培培; 赵烨; 汪萌; 基于自适应隐马尔可夫的多特征融合手语识别方法, 2020-07-10, 中国, ZL201811131806.9.
郭丹; 汪萌; 周文罡; 李厚强; 李传青; 李安阳; 基于非对称多层LSTM的连续手语视频自动翻译方法, 2020-2-11, 中国, ZL201810027551.5.
郭丹; 王硕; 汪萌; 基于时域卷积网络与循环神经网络融合的手语视频翻译方法, 2019-10-18, 中国, ZL201811070290.1.
汪萌; 张鹿鸣; 郭丹; 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法, 2018-2-6, 中国, ZL201510080478.4.
汪萌; 张鹿鸣; 郭丹; 田绪婷; 一种基于几何重构和语义融合的视点追踪方法, 2017-10-3, 中国, ZL201410733763.7.
郭丹; 胡学钢; 倪武; 吴信东; 一种基于最大流率路径优先的路网疏散规划方法, 2017-6-6, 中国, ZL201510451828.3.
汪萌; 杨勋; 洪日昌; 郭丹; 刘奕群; 孙茂松; 一种基于语义映射空间构建的图像检索方法, 2017-5-17, 中国, ZL201410393094.3.
汪萌; 洪日昌; 李炳南; 刘奕群; 郭丹; 刘学亮; 吴信东; 杨勋; 基于连续数标号子空间学习的检索重排序方法, 2017-2-22, 中国, ZL201410196946.X.
汪萌; 张鹿鸣; 郭丹; 刘奕群; 孙茂松; 鲁志红; 基于GPS信息视频的三维场景重建方法, 2017-2-22, 中国, ZL201410752454.4.

其他

指导大创项目

立项时间	项目名称	项目层次	项目组成员
2022年	基于视觉环境感知的视障人士出行导航系统	国家级	谷纪豪、肖同欢、宋万强、黄滨
2022年	基于视觉-语言理解的智能室内机器人导航系统	省级	李家秀、卫天翼、蔡景宜、赵凌霄、费文轩
2021年	基于多分类目标检测的全自动家居清洗设备	校级	何梓贻、罗匡、徐梓鑫、倪友炜、马嘉淇
2021年	基于PyramidBox-Lite模型的口罩识别检测系统	校级	梁云、付守宇、付泓菁、李跃强、秦崇昀
2020年	基于人群计数技术的大型超市优化管理系统	省级	曾纪勇、李泓博、张振兴、银鑫、刘经诚
2020年	基于场景文字识别的图书检索AI系统	校级	陈鸿、陈国良、郭志俊、李利艳
2019年	基于表情识别的课堂质量评判系统	校级	恽郅、弋绮、万德阳、杨光正奥、马欣
2018年	“今日食堂”--打造高校智能食堂2.0	省级	朱航延、王家辉、张方勇、刘志远、李文琪

Link

会议链接：机器学习与人工智能领域国际学术会议链接（网站、论文）