数据选择及复杂模式发现

发布者:刘金露发布时间:2024-05-02浏览次数:26

数据分类由两个功能块组成:数据选择和分类,分类的质量和效果取决于数据选择的准确度。数据选择可分成属性选择和实例选择,这两种数据选择方法在大数据环境下都得到了广泛的研究,期待解决数据量大和高维等制约其发展的核心问题。本项目组在过去十多年深入研究了数据选择下分类模型并取得了一系列创新成果:提示了数据间的各种复杂关系,设计了最近邻的精准选择方法,提出稀疏学习下属性选择模型,为数据资源利用提供核心理论和方法。该代表性研究的部分成果“数据选择下分类的若干模型”已获广西自然科学一等奖。其重要科学发现点包括:

1.提示训练数据间的关联关系,不同测试样本需要采用不同数量的最近邻点分类预测:探讨K最近邻方法的两个挑战问题(设置K值和搜索最近邻点),通过对训练例子的关系重构和推算,提出K*Tree模型,将这个懒惰学习算法改良成需要训K*Tree;重构样本关系矩阵,设计最佳K值的求解算法;考虑信息不完全性,提出近邻关系的灰度度量下分类预测方法;通过数据分块来升级KNN分类算法,设计大数据的KNN分类算法。

2.阐明训练数据中的局部结构(样本间的关系和属性间的关系)保持完整的重要性,以及属性选择属性的制约因素:提出基于稀疏学习的动态图理论框架和联合图稀疏编码理论,设计了局部结构保持下的属性选择算法,构建属性自表示方法和以现有训练样本作为字典下的属性选择框架,提高了数据选择与分类的鲁棒性,丰富了稀疏学习框架体系;针对属性选择后训练数据的数量仍然大的问题,提出稀疏嵌入与最小方差下的哈希方法。

3.在不完备数据填补研究领域提出的混合核填补方法和有序代价敏感填充方法,被国际同行应用到医学图像分析领域。此外,该项成果和应用得到中科院院士郑南宁、近十位ACM和IEEE双Fellow(如Philip S. Yu、Qiang Yang和周志华等)、20多位IEEE Fellow (如Sabine Van Huffel、Andrzej Cichocki、 Bastiaan Kleijn和Edwin R. Hancock等)、多位欧洲科学院院士(如Xuemin Lin、李学龙和Heng Tao Shen等),俄罗斯工程院外籍院士吴信东,新加坡科学院院士Beng Chin Ooi和澳大利亚科学院和欧洲科学院外籍双院院士Dacheng Tao等国内外同行高度认可,促进了科技产业的进步。