图像和视频等可视化数据具有数据量大、非结构化和抽象程度低等特点,对其进行快速有效的组织、访问、存储和检索,成为很有价值的研究课题。项目瞄准图像的语义理解这一前沿课题,借鉴人类感知系统的信息处理机制,从图像数据的概率主题建模出发,研究图像语义映射的新理论和新方法,并在图像语义标注和检索、目标跟踪等任务中进行验证和性能分析。
项目的主要创新包括以下几个方面:(1) 提出了融合语义主题的图像语义映射方法PLSA-FUSION,利用两个传统PLSA模型分别建模图像的离散视觉特征和语义关键词,并提出自适应不对称算法融合两种模态的语义主题;(2)提出了连续PLSA模型对图像的连续特征直接建模,避免了聚类粒度的选择带来的负面影响,并在此基础上提出了基于生成式建模的方法GM-PLSA和基于混合学习策略的方法HGDM;(3) 提出了基于多个鉴别性稳定区联合的视觉目标跟踪方法,通过多个区域联合决策的方式来获取图像中目标的大小和位置等信息。依托项目已发表学术论文40余篇。
部分代表性研究成果
[1]Li Zhixin, Shi Zhongzhi, Zhao Weizhong, Li Zhiqing, Tang Zhenjun. Learning semantic concepts from image database with hybrid generative/discriminative approach [J]. Engineering Applications of Artificial Intelligence, 2013, 26(9): 2143-2152.
[2]Li Zhixin, Shi Zhiping, Liu Xi, Shi Zhongzhi. Modeling continuous visual features for semantic image annotation and retrieval [J]. Pattern Recognition Letters, 2011, 32(3):516-523.
[3]Li Zhixin, Shi Zhiping, Liu Xi, Li Zhiqing, Shi Zhongzhi. Fusing semantic aspects for image annotation and retrieval [J]. Journal of Visual Communication and Image Representation, 2010, 21(8): 798-805.
[4]Zhang Canlong, Jing Zhongliang, Pan Han, Jing Bo, Li Zhixin. Robust visual tracking using discriminative stable regions and K-means clustering [J]. Neurocomputing, 2013, 111: 131-143.