- 1
- 0
- 约1.54万字
- 约 14页
- 2023-06-06 发布于四川
- 举报
本发明提供了一种基于主题特征和内容语义的新型网页去重方法,其特征在于,包括:利用HTML网页标签分类模型自动抽取目标网页的网页正文;基于网页正文进行主题计算和限定;网页相似度计算。本发明提供的方法能够一定程度地解决相关技术中存在的问题,应用于互联网中不同来源、不同风格、不同内容的全网网页,并在执行效率、计算准确性等方面显著地优于现有的技术方法。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 112765940 A
(43)申请公布日 2021.05.07
(21)申请号 202110073759.2
(22)申请日 2021.01.20
(71)申请人 南京万得资讯科技有限公司
您可能关注的文档
最近下载
- 2025年互联网营销师短视频营销策略制定与优化专题试卷及解析.pdf VIP
- 解读2025+HFA、EAPCI+临床共识声明之主动脉瓣狭窄合并慢性心力衰竭的管理PPT课件.pptx VIP
- 安徽单招医学类校考题库及答案.doc VIP
- 第28课 使用系统讲安全 教案 义务教育人教版信息科技六年级全一册.pdf VIP
- 6会摇尾巴的狼 教学课件.pptx VIP
- 2024年秋江苏开放大学通用管理能力(个人与团队)050017平时作业一.docx VIP
- 揭示取消操作行车安全与设备02课件.pptx VIP
- CB-T-4510-2020船舶行业安全生产和职业卫生培训管理要求.docx VIP
- 宏盛微半导体AGM314MAP VER2.72.pdf VIP
- DFM评估报告模板.doc VIP
原创力文档

文档评论(0)