基于文本分析技术的新闻阅读平台的研究与实现-计算机应用技术专业论文.docxVIP

基于文本分析技术的新闻阅读平台的研究与实现-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浙江大学硕士学位论文 摘要 摘要 互联网信息的爆炸式增长在给用户带来更丰富精彩的新闻资讯的同时,也让 用户寻找感兴趣的信息变得更为艰难。在这样的背景下,新闻阅读平台应运而生。 新闻阅读平台通过聚焦爬虫收集不间新闻网站上的新闻内容,并对新闻数掘进行 分析挖掘,提取出最有价值的内容展现给用户,使用户阅读新闻的体验更加快捷 方便。本文围绕新闻阅读卒台及关键技术,进行了如下工作: 通过分析新闻特性,建立新闻时间衰减模型与新闻虚拟圈模型,在此基础上 提出了一种基于信息互增强的新闻排序算法:采用自底向上的聚类方法获取新闻 事件,再根据信息互增强原理对新闻源、新闯事件与新闻文章三者的重要度进行 法代计算。 在传统谱聚类算法的基础上,由多次聚类计算之间的相似性引入聚樊时间平 滑的概念,并结合新问网页中的相关链接与标签信息,建立相关链接约束模型及 标签约束模型,对谱聚类目标踊数进行扩展修改,提出了一种约束性时间平滑新 闻谱聚类算法,可以通过矩阵特征值分解的方法求得聚类的近似最优解。 设计并实现了新闻阅读平台 Eagle NewsReader ,该系统从28 个新闻源抓取了 超过 140 万篇新闻文章,对新闯进行分析处理之后为用户提供统一的新闻阅读服 务。本文提出的基于信息互增强的新闻排序算法和约束性时间平滑新闻谱聚类算 法都在该系统中得到了应用,取得了良好的效果。 关键词: 新闻阅读,新闻排序,谱聚类,文本分析,新闻事件 浙江大学硕士学位论文 Abstract Abstract ηle explOsive grOwth Of Web brings richer news infOrmatiOn tO users,at the same time makes it mOre difficult fOr them tO find interesting infOrmatiOn. TO sOlve this prOblem,the news reading platfOrm cOmes intO being. News reading platfOrm uses fOcused crawler tO cOllect news data frOm different websites,then prOcesses and analyzes 由e da阳 ωextract the mOst valuable infOrmatiOn fOr the user,making the reading faster and mOre cOnvenient. This thesis fOcuses On 也e news reading platfOrm and related key technOlOgies,and carries Out the fOl1Owing wOrk: By analyzing news prOperti邸, we intrOduce the t?me decay mOdel and virtual graph mOdel,and then prOpOse a news ranking algOrithm based On infOrmatiOn mutual reinfOrcement.We use bOttOm up clustering tO cOmpute news tOpics,and rank 伽.e three Of news sOurces,tOpics and articles simultaneOusly. Based On the traditiOnal spectral clustering algOrithm,we introduce the cOncept Of tempOral smOOthness tO express the simi1arity between several clustering cOmputatiOns. We alsO add the related link cOnstrained mOdel and tag cOnstrained mOdel,and prOpOse a cOnstrained tempOral smOOth spectral clustering algOrithm. The relaxed Optimal sOlutiOn can be Obtained by sOlving the matrix eigenvalue decOmpOsitiOn in the mOdified target cos

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档