AI技术正加速融入实体经济,不过想让机器吃透人类产出的海量非结构化文档,还是很难。最近,高校和企业联手突破了这个难点,在文档解析这事儿上有了新办法。在WPS 365上海的那个峰会上,华中科技大学的刘禹良教授带着他的团队,给大家介绍了他们和金山办公合作搞出来的Monkey OCR。他们做的这套模型,在国际评测榜单上综合表现第一,把GPT-4o还有Gemini-2.5 Pro都给比了下去。这成绩很厉害,是拿仅有的30亿参数跑出来的,说明他们的算法和工程优化确实有一套。 现在全球都在争文档智能处理这块肥肉。企业里到处都是报告、合同、表格这些乱七八糟的东西,格式乱、术语多、语言杂,传统的工具根本搞不定里面的逻辑关系,严重拖了知识资产管理的后腿。刘禹良教授说,光有数据不行,得好好管质量;想让机器懂现实世界的文字,这也是必须啃下的硬骨头。 大家都知道,现在的大模型在解析复杂文档时准确率和效率都不太行。为了避开这个坑,研究团队没有跟着大模型盲目加参数,而是另辟蹊径。他们发现光靠参数规模大不一定管用,有时反而会把推理速度拖慢。Monkey系列就不走寻常路,专门盯着非结构化文档这块需求,用了自适应图像金字塔切分、循环漂移切分这些招数,还把结构识别、内容识别和关系解析三个环节放到一起统一优化。 这种“先搞定结构”的思路很管用。模型能像人一样读懂段落、标题、图片和表格的顺序和逻辑。最难的是复杂表格这块,团队用上了视觉一致性强化学习来练手。结果MonkeyOCR v1.5在这种场景下的解析精度超过了90%,达到了行业领先。 产学研合作是这次能突破的关键保障。金山办公在文档领域干了38年了,对格式理解和信息抽取有很深的积累;华中科技大学的团队在算法研究上也有优势。以前他们用文档智能技术做甲骨文考释研究还拿过ACL 2024的最佳论文奖呢。 最后,技术还是要回到实际应用上来。金山办公用Monkey这些模型推出了WPS 365这个一站式平台。这个平台想把企业里散落的知识碎片都盘起来用,把静态的资产变成能驱动业务的生产力。 这是我国在AI应用技术上自主创新的一次成果展示。它告诉我们要想搞懂实体经济的痛点,就得深耕具体场景;通过算法创新和工程优化结合起来造工具。双方打算以后弄个更大的多语言数据集和更轻量的视觉基座模型。这能让技术在更多硬件上跑起来用得上,给中国乃至全世界的企业数字化转型提供强劲的动力。这也说明了发展AI必须扎根现实需求、攻克核心技术才行。