图灵奖获得者迈克尔·斯通布雷克教授对大数据的三个观点之一就是处理来自太多源的数据要面对数据集成所带来的巨大挑战,因此,多源数据的有效利用与挖掘一直是数据库领域的核心目标。在国家自然科学基金和863计划等资助下,项目组历经十余年的攻关研究,提出多样性数据的三类挖掘模型,重要科学发现点包括:
1、阐明了人类处理多源数据的机理,发现其复杂性的可控性:提出局部模式分析下的多层次模式挖掘与融合算法、稀疏嵌入与最小方差下的哈希方法、数据库聚类模型。
2、探索了非均衡数据的特性和应用需求的特点,提出测试与误分类代价最小化分类子、异质数据下的代价敏感分类子和代价敏感的半监督分类。
3、揭示缺失数据与已知数据之间的关联关系,提出灰度K 最近邻填充模型、混合属性下缺失填充方法,增强了填充算法的鲁棒性和稳健性。
围绕上述科学发现,论文发表在IEEE Transactions on Knowledge and Data Engineering、IEEE Transactions on Cybernetics、Pattern Recognition、AAAI、IJCAI等著名期刊和重要国际会议上。该研究工作对数据挖掘技术发展的贡献得到微软CTO(雅虎前副总裁)Ramakrishnan、加拿大工程院院士Kamel、印度工程院院士Srinivasan、以及Salford大学计算机系主任Vadera等同行高度认可。学科带头人张师超教授连续四年(2014-2017年)进入Elsevier发布的中国高被引学者榜单。