- 0
- 0
- 约1.87万字
- 约 14页
- 2023-06-06 发布于四川
- 举报
本发明提供一种自动提取网页正文的方法及系统,该方法包括:对目标网页的DOM节点进行筛选,获取备选DOM节点;若父节点的文字内容长度大于预设长度阈值,即将备选DOM节点、备选DOM节点的父节点、父节点的父节点放入待处理列表中,否则忽略此备选节点;根据待处理列表中各个节点的标签,获取各个节点的初始评分;根据预设评分模型,获取待处理列表各个节点的附加分数;据待处理列表优选DOM节点列表中所有优选DOM节点的最终分数,获取内容节点。本发明与传统方法相比,不需要使用人工对文档作出标记,可以提高文档正文的提
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 112765941 A
(43)申请公布日 2021.05.07
(21)申请号 202110081170.7
(22)申请日 2021.01.21
(71)申请人 语联网(武汉)信息技术有限公司
您可能关注的文档
最近下载
- 信号与系统(第三版)上下册郑君里课后习题答案详解.pdf
- WISE(维智)伺服驱动器及电机选型手册(适用于WSDV系列伺服驱动器).PDF
- 中考语文散文阅读赏练-----朱自清散文(含解析).docx VIP
- 众泰-T600-产品使用说明书-T600 2.0T 豪华型DCT-JNJ6460QT-T600车系使用手册20131201.pdf VIP
- 桥架一点通 - 抖音版.doc VIP
- 《文献检索与科技论文写作入门》课件—04科技文献检索.pptx VIP
- 公司节约的培训.pptx VIP
- 雅马哈的YV100II镜头校正.xls VIP
- YAMAHA100XG论述.ppt
- 党员干部个人组织生活会个人对照(学习贯彻党的创新理论方面;加强党性锤炼方面;联系服务职工群众方面;发挥先锋模范作用方面;改作风树新风等方面)存在的问题清单及整改措施.docx VIP
原创力文档

文档评论(0)