该代表性成果主要包括智能视觉分析和图像智能检索两个方面,围绕复杂开放环境中,智能识别和检索面临的自适应性学习、多模态融合和语义鸿沟等关键技术问题开展创新性研究,相关技术应用于人工爆炸物和菜品识别等方面,取得成果推广,获中国地震局三等奖1项。
1.在智能视觉分析方面:(1)研究基于数据驱动的方式自适应学习目标尺度变化,设计完全无锚的卷积网络系统,将视觉目标追踪转化为回归和分类并行问题,避免了候选框等超参数的设计;(2)研究视觉深度学习模型的可解释性,针对视觉模型的可解释性,提出了一种新的可解释的可视化方法来分析和解释视觉transformer 补丁之间的关键注意力交互,并相应地设计了一个无窗口transformer (WinfT)架构;(3)提出基于视觉-语言的统一令牌生成学习方法,将视觉-语言跟踪视为令牌生成任务,它将语言描述和边界框序列化为一系列离散的标记;(4)提出基于软约束的无正样本自适应目标感知技术,通过软约束机制自适应地感知目标的像素位置,消除了人为标记目标像素位置造成的潜在性能差距;(5)设计复杂场景下结合元学习和对比学习的孪生关系跟踪识别网络,在面对背景杂波、快速运动和遮挡时可获得准确识别结果;(6)利用频域信息和小波分解进行表征学习,设计了基于transformer的简单有效的两阶段频率融合跟踪模型,解决transformer 对高频信息的灾难性遗忘所造成的性能损失;(7)结合长程时空和双向约束技术,实现高效前景和背景时空相关性信息提取的网络模型,从而获得更高的识别精度。
2.在面向智能检索的图像语义检测与标注方面 :(1)提出了基于半监督学习的分类和聚类方法,缓解了有标签数据量少的问题,能够获取新的可靠的图像-标签对,从而大幅提升系统性能。揭示了基于半监督语义学习协同训练两个不同初始分类器的方法,能够充分利用无标签样本可靠地扩展有标签训练集,从而得到最终的强分类器,实现优势互补(2)提出了混合学习框架,克服了单纯建模方法的固有缺陷,并设计了语义关系网络和空间关系网络,获得了图像中更丰富更细粒度的语义。阐明了混合学习是结合了特征学习与语义学习的策略,继承了生成式和判别式两种模型各自的优势,从而克服了单纯建模方法中某种模态的特征直方图过于稀疏的问题(3)提出了连续PLSA以建模图像特征,避免了聚类粒度选择带来的负面影响,设计了自适应不对称学习算法,获得了表达能力更强的公共语义空间。验证了连续PLSA模型能有效对图像的连续特征直接建模,避免了离散特征的信息损失,在此基础上利用不对称学习算法实现关联建模,从而提升了标注性能相关成果不仅可以成功应用在图像语义映射相关领域,经过适当改进也可以应用于文本分类、数据挖掘、跨媒体检索等多个领域,具有重要的理论意义和应用前景。
3.相关技术已经申请发明专利并进行成果转化,获中国地震局防震减灾科学成果奖三等奖1项。例如菜品检测识别技术已达到工业应用标准并应用在智慧餐厅管理平台,与中科视拓(南京)有限科技公司和厦门融核卓越信息科技有限公司等合作,形成相关产品应用在餐厅、食堂等场景,至今已获得1259万余元的经济效益。黄汉明教授作为第二完成人申报的成果“天然地震与人工爆炸识别技术的研究及其应用”获中国地震局防震减灾科学成果奖三等奖。