港科大与企业联合提出版式感知检索框架复杂图文文档搜索实现“更准更省”

数字化信息高速增长的背景下，各类机构普遍面临同一个难题：如何在海量复杂文档中迅速找到关键信息。传统检索系统主要识别文字内容，对包含图表、公式等非结构化信息的文档支持不足。研究显示，企业员工平均每周有约6小时耗在低效的文档查找上，由此带来的年度生产力损失可达数亿元。这个困境的根源在于技术衔接不足。现有方案存在“两难”：简单的文本检索难以保留版面与结构语义；而更精细的多向量检索又会因数据规模膨胀带来高昂的存储成本。另外，常见的网格化切分会破坏文档原有结构，导致表格被拆分、图文被割裂等问题频繁出现，进而引发系统性误差。针对这一痛点，香港科技大学计算机系联合阿里云研发团队提出ColParse框架。该技术实现了三上改进：其一——采用视觉感知分区算法——可像编辑一样识别标题、图表等12类文档元素；其二，开发动态向量生成机制，为不同区域生成更贴合内容的语义编码；其三，通过层级融合将分散信息整合为更紧凑的知识单元。基于24个国际标准数据集的验证结果显示，该框架在保持检索精度的同时，将存储占用压缩到传统方法的5%以下。该技术具备较强的落地空间。在法律领域，可用于百万级判例文书的精准检索与比对；在医疗系统中，可更快调取包含影像资料的电子病历；在金融机构中，可提升跨年度财报关联信息的分析效率。业内估算，全面应用后，知识密集型行业的信息处理效率有望提升40%以上。

文档检索正从“能找到”走向“找得准、找得快、成本可控”。关键在于让系统理解文档结构及其信息组织方式。以版面理解为基础、兼顾效率与资源约束的技术路线，展现了面向产业数字化与公共服务的应用潜力。随着涉及的成果深入完善并工程化落地，复杂文档沉淀的知识资产有望被更充分释放，为科研创新、企业管理和公共服务效率提升提供新的支撑。

港科大与企业联合提出版式感知检索框架 复杂图文文档搜索实现“更准更省”

港科大与企业联合提出版式感知检索框架复杂图文文档搜索实现“更准更省”