『论文』文档智能: 数据集、模型和应用

来源(原作者):崔磊等 | 发布时间:2022-08-10 | 热度:49

本文发表于《中文信息学报》二零二二年第六期。

作  者:崔磊 徐毅恒 吕腾超 韦福如

摘  要:文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。

全文阅读