湘潭大学攻克矩阵逼近技术难题 新算法破解数据分析领域多年瓶颈

(问题)在大数据时代,图像分析、文本挖掘、推荐系统、生物信息学等应用场景普遍面临一个共同挑战:如何从高维数据中提取稳定、可解释的结构信息;非负低秩矩阵逼近作为重要技术路线,强调在保持数据非负性的同时——用低秩结构刻画主要模式——有助于实现降维压缩、特征提取与噪声抑制。然而,如何在求解过程中同时严格满足“非负”和“低秩”两类约束,并获得可验证的收敛性质,一直是该领域的关键难点。 (原因)传统非负矩阵分解方法通常要求两个因子矩阵均为非负,这种约束设置在不少真实任务中偏“硬”,容易限制表达能力;而非负低秩矩阵逼近模型仅要求最终逼近矩阵非负且低秩,灵活性更强,更贴近部分数据生成机制与工程需求。但由于该问题本身具有非凸性,现有算法往往采用交替投影或近似更新策略,容易出现两类瓶颈:其一,中间迭代解可能在某一步满足非负却破坏低秩,或保持低秩却出现负值,导致“过程不可行”;其二,缺乏足够强的理论保障,难以确保算法稳定下降并收敛到局部极小值,影响在复杂数据上的可靠性与可复现性。 (影响)针对上述痛点,湘潭大学数学与计算科学学院教授张娟课题组提出一种新的块分裂方法BS-NLRA,涉及的成果发表于《IEEE知识与数据工程汇刊》(IEEE Transactions on Knowledge and Data Engineering)。论文由张娟担任第一作者及通讯作者,湘潭大学2023级博士研究生邓凯为第二作者,新加坡国立大学教授储德林参与研究;湘潭大学为第一完成单位和唯一通讯单位。研究的核心贡献在于:以QR分解为关键手段,将原本隐含且难直接处理的低秩约束转化为显式的矩阵乘积形式,从而把复杂的非凸问题分解为诸多可并行求解的凸子问题。更地,研究团队利用对偶理论,将这些子问题转化为具有强半光滑特性的非线性方程,并设计半光滑牛顿法进行高效、精确的数值求解。该思路不仅提升了计算效率,也为大规模数据情形下的工程落地提供了更可操作的数学结构。 (对策)从算法机制看,BS-NLRA强调“约束内迭代”:在每一次更新中同时保持低秩与非负约束严格成立,避免了以往方法常见的“先更新、再修正”的反复折返。理论分析显示,该方法可保证目标函数值在迭代过程中单调下降,从根本上缓解了交替投影可能出现的中间解不可行、收敛性难以保证等问题。对实际应用而言,这意味着算法输出的每一步结果都更具物理可解释性与工程可用性,尤其适合需要稳定迭代与可控误差的场景,例如图像分解中的非负强度约束、文本主题模型中的词频非负性、推荐系统中的评分非负结构等。 (前景)业内普遍认为,面向高维复杂数据的矩阵优化方法正在向“更强约束一致性、更高计算并行度、更可证明的收敛性质”方向演进。BS-NLRA将低秩结构显式化、将求解过程模块化并行化,同时强化理论保证,说明了这一发展趋势。下一步,该方法有望在更大规模数据集、更多噪声模型与约束组合下进行扩展验证,并与分布式计算、异构加速等工程体系结合,推动在工业推荐、医学影像、生物组学等对精度与稳定性要求较高的领域形成更具竞争力的解决方案。同时,围绕其对偶构造与半光滑求解框架,也可能为相关非凸约束优化问题提供可借鉴的范式。

这项研究展示了基础数学研究的重要价值;中国科研团队通过理论创新解决实际问题的能力,正在为全球科技发展作出积极贡献。