- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于新闻网页主题要素的网页去重方法研究
基于新闻网页主题要素的网页去重方法研究1
王鹏,张永奎,张彦,刘睿
山西大学计算机与信息技术学院,太原(030006 )
计算智能与中文信息处理省部共建教育部重点实验室,太原(030006 )
摘 要:网页检索结果中,用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻
主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中
关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,
根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方
法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。
关键词:新闻主题要素,模糊匹配,去重算法
中图分类号:TP391 文献标识码:A
1 引言
随着计算机的普及以及互联网的迅猛发展,WWW 上的信息量剧增,怎样有效利用这
个空间就成为了当前研究的热点。现在,人们在网上查找一些东西用到更多的是搜索引擎系
统提供的智能导航系统。然而,广大的 Internet 用户在使用这些搜索引擎的时候,尤其是在
搜索一些关于突发事件新闻的时候,常常会发现输出结果中包含了大量内容重复的网页。这
些网页的存在,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源,降低了索
引效率,同时也影响了准确率和召回率。所以说,把这些重复的网页去掉将是一项具有实际
意义的工作。
2 网页去重与新闻主题要素
2.1 现有网页去重的方法
当前,提出的网页去重的方法还不是很多,代表性的方法有:基于聚类的方法[1,2] ﹑排
[3] [4]
除相同URL方法 ﹑基于特征码的方法 ,下面做一下简要介绍:
1)聚类的方法:该方法是基于网页文本内容以 6763 个汉字作为向量的基,文本的汉字
的字频就构成了代表网页的向量。通过计算向量的夹角决定是否是相同的网页。
2)排除相同 URL 方法:各种元搜索引擎去重的主要方法。它分析来自不同搜索引擎的
网页URL,相同的 URL 认为是相同的网页,给予去除。
3)基于特征码的方法:这种方法利用标点符号多数出现在网页文本的特点,以句号两边
各五个汉字作为特征码来唯一的表示网页。
2.2 网页重复的特点
1)重复率高。网页重复主要来自转载。网页转载非常容易。由于用户兴趣的驱动,网络
信息流通中人们通过复制方式进行信息共享,经典的文章,以及新闻网页,很容易引起人们
1本课题得到国家自然科学基金)、山西省自然科学基金)和山西省回国留学人员基
金(2002004 )的资助。
-1-
的关注,有时转载高达几十次之多。
2)存在噪声。转载时一般都“原样照搬”,保持文本内容和结构的一致,并尊重版权,在
开头加入了引文信息。也就是说这些网页在去掉噪声以后,能够在内容和结构方面能够保持
高度一致。
3) 新闻网页的重复也来自对于同一事件的不同报道,尤其是对于人们关注的热点新闻。
这些新闻报道由于不是转载,所以说可能从他们的结构上是不能达到去重的效果,但是由于
他们是对同一事件的报道,其实他们的重复率还是很高的,是需要去重的。
在本文中我们认为的网页的重复有两种: 一就是前两种情况,二就是第三种情况。由于
以前提出的方法都是通过文章结构或字频来进行网页的去重,没有能够参照文章内容所表达
的意思来进行去重,所以那些方法只可以对前两种方法进行网页去重的处理,而不能对后面
出现的第三种情况做出处理。在本文中我们提出了一种对新闻内容学习的方法,采用这种方
法我们就能够对出现这三种情况的新闻网页进行去重。
2.3 新闻网页的主题要素
新闻是一种特殊的文体,是对最近生的或者正在发生的事实的报道。要想让读者理解清
楚一篇报道的内容,至少要表达清楚新闻的 6 大基本要素,即“5W”和“1H” 。否则,就说不
清事实,传达不明白信息,让读者看不明白,这样的
您可能关注的文档
- 基于BS与CS架构的高校社团管理系统邹建国.pdf
- 基于CES模型的宁波服装产业集聚效应分析.pdf
- 基于FFT的快速跳频同步信号存在性检测.pdf
- 基于GPRS网络的图像传输自适应算法及实现.pdf
- 基于Google地图的高校房地产资源管理信息系统.pdf
- 基于HowNet的词汇语义倾向计算.pdf
- 基于IHE+XDSXCA的跨区域医疗信息共享交换系统设计.pdf
- 基于KNN的不良文本过滤方法.pdf
- 基于KM教学论的面向对象程序设计教学研究.pdf
- 基于LBS的车辆监控系统实现及关键技术研究.pdf
- 青岛版二年级下册数学精品教学课件 极速提分法 第4招 用推理思想解决有余数除法问题.ppt
- 金属复合氧化物活化过一硫酸盐降解水中酸性橙7的研究.docx
- 面向自闭症谱系障碍的非典型视觉显著性预测研究.docx
- 长周期光纤光栅光刻制备工艺研究.docx
- 2024吉林镇赉县鑫阳新能源有限公司招聘工作人员5人笔试参考题库附带答案详解.pdf
- 基于TrackFormer和可变形MAE的行人跟踪方法研究.docx
- 河长制下L市水环境治理绩效审计评价研究——基于PSR模型.docx
- 钴基金属有机框架及其作为前驱体构筑的复合材料用于罗丹明B降解性能的研究.docx
- 2025年甲级写字楼服务标准.doc
- 汉赋方位书写研究.docx
最近下载
- 2024年广东省初中学业水平考试模拟地理试卷(一)课件.pptx VIP
- 广州洪德巷历史文化街区保护利用规划.pdf
- 广州市人民南历史文化街区保护利用规划(文本+图纸).pdf VIP
- 关于烹饪的策划书3.pptx
- WALL·E《机器人总动员(2008)》完整中英文对照剧本.pdf VIP
- LDT 99.13-2008 建设工程劳动定额市政工程-维修养护工程.docx
- 实验报告之spss频数分析.docx VIP
- 新教科版科学小学科学五年级下册全册教案(表格式,可打印).docx
- 2022年新改版教科版五年级上册科学全册教案教学设计(新整理版).doc
- 某小区高楼变频恒压供水系统设计.docx
文档评论(0)