- 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
- 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。
                    
  (19)中华人民共和国国家知识产权局 
                            (12)发明专利申请 
                                                     (10)申请公布号 CN 111401010 A 
                                                     (43)申请公布日  
                                                                  2020.07.10 
  (21)申请号 20201
                您可能关注的文档
最近下载
- GB50608-2020 纤维增强复合材料工程应用技术标准.docx VIP
- 高净值人士税务观察:个人股东在并购重组中能否暂免纳税?.pdf
- 《安全保卫工作概述》课件.pptx VIP
- 钢结构施工方案.doc VIP
- 青岛版五四制三年级下册科学课教案.pdf VIP
- 第一章探秘膨松剂(2)教学设计2023-2024学年高一上学期化学鲁科版(2019)必修第一册.docx VIP
- 背压式汽轮机出现负胀差原因与控制措施分析.pdf VIP
- Matlab程序设计与应用课后参考答案.pdf VIP
- 苏霍姆林斯基《给教师的一百条建议》(1~3).pdf VIP
- 矿产勘查学4矿产预测的理论与方法幻灯片.ppt VIP
 原创力文档
原创力文档 
                         
                                    

文档评论(0)