2021年3月4日,自然系列期刊(Nature Portfolio)刊文发布了我校广西多源信息挖掘与安全重点实验室(计算机科学与信息工程学院)在用信息挖掘开启智能化转型等方面的创新研究成果。其中大篇幅地报道了该实验室的大量顶尖人才与优秀研究人员利用创新模型和理论颠覆现有技术的瞩目成果。 实验室的各项研究成果体现了广西多源信息挖掘与安全重点实验室的快速发展。报道提到,实验室主任张师超教授带领团队深耕“非确定性多项式时间问题”这一基础的可计算性理论,他的团队提出了两种K-NN模式化策略:K*Tree分类方法和一步计算,不仅节约了成本,提高了分类结果,还能用在大数据上;国家级人才朱晓峰教授着眼于高维大数据高储存成本和知识发现低效的问题,提出基于稀疏模型的属性约简方法,改善了基于神经影像分析的计算机辅助诊断体系的特征选择;唐振军教授的团队提出了图像环形分割的稳健特征提取方法,可以解决旋转变换下的图像特征一致性问题等。 报道中还有一项数据引人注目:实验室拥有创新研究队伍和平台,多位研究人员入选了国家级人才计划,实验室每年发表学术论文100余篇,产出了一批专利、软件著作权和技术应用成果。计算机科学与信息工程学院院长李先贤说:“我们欢迎更多的拔尖人才加入我们,共同推动研究的创新和突破。”
现将报道原文分享如下:
中国南部的一个信息挖掘实验室吸引了大量顶尖人才,这些优秀的研究人员正在利用创新模型和理论颠覆现有技术。
从海量数据中高效且安全地提取有用信息需要新的方法和技术,而这正是广西师范大学广西多源信息挖掘与安全重点实验室(计算机科学与信息工程学院)的研究目标。
新的数据提取方法可用于医疗诊断、图像处理等多个领域。来源:Getty
实验室主任张师超教授带领团队深耕“非确定性多项式时间问题”这一基础的可计算性理论。团队将不确定推理转化成矩阵表示,再编码成一个计算公式。团队将时态推理的时态关系也转化为矩阵表示,时态关系演算与传播可以通过矩阵计算获得。此外,团队还将数据点分类常用的算法K最近邻(K-NN)分类转换成了矩阵计算,直接获得测试数据的K值和K个最近邻点。
K-NN 是一种能轻松用于数据挖掘的算法,但这种分类方法需要不断地试错。张师超教授团队提出了两种K-NN模式化策略:K*Tree分类方法和一步计算,不仅节约了成本,提高了分类结果,还能用在大数据上。此外,他们还提出了名为壳状近邻填充(SNI)的新方法,该方法利用数据集左右最近邻点,填充其中的缺失值,在分类准确性上超过了K-NN。
解决数据量大的一个有效方法是分而治之,即大数据分块挖掘。
张师超教授提出多源挖掘的异质数据局部模式分析策略,可以将数据量大的问题转化为局部模式融合问题。针对测量预测模型中偏差的动态数据,团队设计的挖掘方法可以对数据更新进行高效维护。此外,团队还提出了非频繁模式挖掘方法,用于关联性规则的学习。
国家级人才朱晓峰教授着眼于高维大数据高储存成本和知识发现低效的问题,提出基于稀疏模型的属性约简方法,改善了基于神经影像分析的计算机辅助诊断体系的特征选择。
朱晓峰教授的团队还将线性复杂度的哈希方法用于高维大数据检索,与此相关的一项研究是他们探索的可用于填充数据集缺失数据的机制和规律。
唐振军教授关注的是图像哈希——图像哈希能用于处理大规模图像数据,支持海量图像的快速搜索。他的团队提出了图像环形分割的稳健特征提取方法,可以解决旋转变换下的图像特征一致性问题。团队还发现了图像处理后的降维特征近似线性变化的规律,为相似计算提供了理论支持。不仅如此,团队提出的不变距离的特征压缩方法实现了高效编码,能为图像分类生成紧凑表示。
广西多源信息挖掘与安全重点实验室主办过多场学术会议,如第二十四届全国信息检索学术会议。来源:广西多源信息挖掘与安全重点实验室
计算机科学与信息工程学院院长李先贤说:“这些研究成果体现了广西多源信息挖掘与安全重点实验室的快速发展。”实验室拥有创新研究队伍和平台,多位研究人员入选了国家级人才计划,实验室每年发表学术论文100余篇,产出了一批专利、软件著作权和技术应用成果。李先贤说:“我们欢迎更多的拔尖人才加入我们,共同推动研究的创新和突破。”
中文报道
英文报道