- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于预训练模型的非结构化文档智能化处理
在企业日常运营产生的数据中,非结构化数据占企业数据总量的80%1。员工日常工作中面临繁重的非结构化文档处理任务,由于文档格式复杂、行文标准不统一,处理过程既困难又耗时,产生了高昂的人力成本和时间成本。
尽管机器人流程自动化(roboticprocessautomation,RPA)、大模型在文本切片处理方面表现出色,但对于非结构化文档的数据抽取效果却不尽如人意。例如,文档中表格出现单元格合并、无边框、标题行列与内容行列不对应等情况时,识别可能为空或错误数据。
笔者团队以职业年金信息披露这一典型应用场景为例,详细阐述了对复杂非结构化文档的自动化和智能化处理的探索研究。
1.职业年金信息披露应用场景介绍
职业年金是为完善机关事业单位多层次养老保险体系而建立的补充养老保险制度2。随着年金市场化投资运营稳步推进,年金基金投资规模不断增长。为加强基金监管,保障基金安全,要求各基金管理机构加强基金信息报告和信息披露行为[3-4]。
(以下简称“泰康养老”)作为受托人,须收集来自投资管理人和托管人等管理机构的信息披露报告,进行数据比对后形成受托人信息披露报告报送。各机构信息披露报告通常以多种非结构化文档形式传递,在行业内沿用多年并得到普遍认可。泰康养老虽曾多次尝试通过数字化转型推动信息数字化报送,但由于行业惯例根深蒂固,基于非结构化文档信息交换的方式在短期内难以被完全取代。
面对日益增长的年金运营规模,人工信息披露比对暴露出效率低下、易出错且难以应对复杂多样数据情况等问题。因此,如何在现有情况下,实现对非结构化文档数据的精准抽取与比对,成为提升年金运营效率、保障信息披露质量的关键挑战。
2.非结构化文档处理解决方案探索
基于以上问题,笔者团队进行了非结构化文档智能处理的探索。
2.1RPA+DeepSeek
自动化探索初期,笔者团队采用“RPA[5+DeepSeek[]”方式尝试解决数据抽取和比对问题。包括以下三个步骤:
(1)表格数据抽取。将每个省份的信息披露报告的所有表格标题分别存储到对应省份列表中,通过PDFplumber.getTable方法找到对应标题下的表格,最后将表格抽取到Excel中,形成各省份的特征表格。
(2)DeepSeek模型学习。将特征表格中抽取的行列标题存储到对应省份字典中,再将字典结构输入DeepSeek模型,通过数据结构训练,构建出包含各省份特征的模型库。
(3)特征表格数据抽取和比对。将源文件传送给特征模型库进行数据抽取,通过Python编程实现最终的数据比对和校验。
但此方案仍有以下三个方面的不足:
(1)表格抽取偏移量计算不准确。因无法保证表格最后的单元格为标准格式,如存在合并单元格、插入公式等情况,导致RPA无法准确计算偏移量值,使数据抽取丢失。
(2)须手动配置字典库。如某个省份表格字段发生变化,须手动更新对应省份字典库。
(3)模型训练效果不理想。因DeepSeek对表格复杂格式学习效果欠佳,无法较好理解表格字段逻辑,所以成功率仅35%。
2.2预训练模型
预训练模型是指在大规模数据集上预先训练的神经网络模型,在自然语言处理(NLP)、图像识别等领域应用广泛,常见模型包括循环神经网络(RNN)、基于Transformer的双向编码器表征(bidirectionalencoderrepresentationsfromtransformers,BERT)模型、词向量(Word2Vec)模型等。在大规模数据集上,通过某些特定任务进行模型预先训练。通过预训练,让模型学习到数据内在结构和规律,以及语言通用表示。经笔者团队反复实验及论证,最终采用预训练模型技术方案进行智能化处理,具体方案及技术见后文。
3.非结构化文档智能处理方案设计
参照人工信息披露处理流程,基于预训练模型设计了非结构化文档智能处理方案,具体设计如下文所述。
3.1数据输入与预处理
(1)支持用户上传多种格式的年金信息披露报告文档。
(2)自动进行文本清洗和格式标准化。
3.2信息抽取
通过预训练模型强大的学习能力,自动识别文本中的表格和关键信息。系统能处理多样化及复杂化的表格结构,确保准确抽取所需字段信息。
3.3上下文理解与分析
通过预训练阶段学习到的上下文语义关系,对抽取到的信息进行深人学习与分析,掌握语义之间的逻辑关系。
3.4比对结果报告生成与输出
将处理后的数据比对结果生成结构化报告,支持导出PDF或Excel格式,便于进一步分析。
4.预训练模型关键技术分析
本方案技术难点在于预训练模型训练和训练阶段数据处理。通过对信息披露报告中表格样本进行特征抽取和训练,建立非结构化文档智能模型,实现对各种复杂、动态表格数据的精准抽取,完成数据比对(如图1所示),具体分为三个步骤。
(1)表格
您可能关注的文档
- 六家边缘计算企业特色纵览.docx
- 人工智能技术赋能互联网平台构建策略探索.docx
- 封面故事:2024电商服务商创新企业纵览.docx
- 脑机接口技术的伦理规范与跨文化治理探析.docx
- 如何看待混合式人工智能前景.docx
- 商汤、云从、依图(《2024人工智能行业报告》三视点).docx
- 封面故事:2024出海企业纵览.docx
- 用户数据驱动的软件企业产品创新策略.docx
- 评TikTok剧情一波三折.docx
- 云计算环境下计算机大规模数据存储技术.docx
- GB/T 176-2025水泥化学分析方法.pdf
- 中国国家标准 GB/T 176-2025水泥化学分析方法.pdf
- GB/T 46561-2025能源管理体系 能源管理体系审核及认证机构要求.pdf
- 中国国家标准 GB/T 46561-2025能源管理体系 能源管理体系审核及认证机构要求.pdf
- 《GB/T 46561-2025能源管理体系 能源管理体系审核及认证机构要求》.pdf
- GB/T 17119-2025连续搬运设备 带承载托辊的带式输送机运 行功率和张力的计算.pdf
- 中国国家标准 GB/T 17119-2025连续搬运设备 带承载托辊的带式输送机运 行功率和张力的计算.pdf
- 《GB/T 17119-2025连续搬运设备 带承载托辊的带式输送机运 行功率和张力的计算》.pdf
- 中国国家标准 GB/T 31270.4-2025化学农药环境安全评价试验准则 第4部分:土壤吸附/解吸试验.pdf
- GB/T 31270.4-2025化学农药环境安全评价试验准则 第4部分:土壤吸附/解吸试验.pdf
最近下载
- 七上语文课后生字词注音及解释.pdf VIP
- 2020年春最新人教版九年级数学下全册教案(匹配新教材).pdf VIP
- (高清版)DG∕TJ 08-2052-2009 公共汽(电)车中途站候车设施配置规范.pdf VIP
- DG_TJ08-2052-2025 公共汽车和电车中途站候车设施配置标准.docx VIP
- 无菌技术操作课件.ppt VIP
- 最完整初中物理公式大全(附:初中物理知识点总结归纳)(精华版).pdf VIP
- 隧道工程质量通病及工序控制要点.ppt
- 大模型时代的具身智能2024.pdf
- 《做书签》教学设计 .pdf VIP
- 品质异常分析处理案例分享(解决问题的七大方法).ppt VIP
原创力文档


文档评论(0)