网站大量收购闲置独家精品文档,联系QQ:2885784924

个性化RSS新闻检索系统设计与实现-软件工程专业论文.docx

个性化RSS新闻检索系统设计与实现-软件工程专业论文.docx

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化RSS新闻检索系统设计与实现-软件工程专业论文

国内图书分类号:TP317 国际图书分类号:621.3 工程硕士学位论文 个性化 RSS 新闻检索系统设计与实现 硕 士 研 究 生:毕莹 导 师:马培军教授 副 导 师:白斗权教授 申 请 学 位:工程硕士 学 科 、 专 业:软件工程 所 在 单 位:软件学院 答 辩 日 期:2007 年 6 月 授予学位单位:哈尔滨工业大学 Classified Index:TP317 .: 621.3 Dissertation for the Master’s Degree in Engineering DESIGN AND IMPLEMENTATION OF INDIVIDUALIZED RSS NEWS RETRIEVAL SYSTEM Candidate: Supervisor: Associate Supervisor: Academic Degree Applied for: Speciality: Affiliation: Date of Defence: Degree-Conferring-Institution:  Bi Ying Prof. Ma Peijun Prof. Doo-Kwon Baik Master of Engineering Software Engineering School of Software June, 2007 Harbin Institute of Technology 哈尔滨工业大学工程硕士学位论文 - - I - 要 互联网发展到今天,己经把人们带入一个信息海量、高速化的时代。这 就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴 趣的信息。RSS(Rich Site Summary 或 Really Simple Syndication 或 RDF Site Summary)阅读器的出现,无疑在一定程度上解决了这个的问题。应用 RSS 阅读器不需要直接去门户网站进行信息的查找,这样就解决了每天都需要登 陆很多个门户网站的困扰。更主要的是,RSS 阅读器会以一定的频率自动对 这些网站的内容进行更新,这就很好的解决了信息不能及时更新的问题。但 是,由于各个门户网站发布的内容的重复性,RSS 阅读器还是存在重复信息 太多,信息关联度不好的问题,这就大大浪费了用户的时间。 本文就是针对 RSS 聚合重复信息多且关联度不好的缺点,对 RSS 阅读 器进行功能改进,实现个性化新闻检索。分别是相同或相似内容新闻过滤功 能,即当各网站出现相同主题、内容相似的文章时只显示优先级最高的网站 的新闻:选择订阅功能,即按照用户要求,定制针对用户喜好的新闻内容: 系列新闻链接功能,即可链接到与感兴趣的新闻相关的之前发布的新闻。 本文首先通过 Digester 模块对 XML(Extensible Markup Language)文件进 行解析,调用中文分词与词性标注系统开放模块对解析出的新闻标题进行词 性标注,提取出一系列实意词作为该新闻的关键词。然后按日期对新闻进行 区分,根据本文所提出的判断准则,对搜集到的全部新闻关键词进行比较分 类存储。最后就是各个改进功能的实现,显示优先级最高的新闻实现相同内 容新闻过滤功能:对订阅关键词和/或禁止关键词与新闻关键词比较实现新 闻订阅功能:通过跨日期类的关键词比较,根据判定准则,实现系列新闻链 接功能。 经过系统运行以及详细的统计和对比分析,引入准确率和召回率,以及 F 值的评测指标,得到了较为理想的结果。 关键词 新闻检索:RSS:词性标注 - - II - Abstract Internet has leaded us to an era with large amount and high speed information, challenging the traditional way to access Internet, that is, whether can find and receive the interested information effectively and efficiently. The emergence of RSS (Rich Site Summary or Really Simple Syndication or RDF Site Summary) reader machine can solve the problem to some extent. By using RSS reader machine, there is no need to access the websites to find infor

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档