- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RSS智能订阅的解决方案.ppt
可以订阅多个站点的更新内容,并统一展现到自己的阅读器中,如鲜果,google阅读,UC阅读等,省下了在多个网站上费时费力寻找自己感兴趣新闻的时间和精力,实时性较高,遗漏率较低。 但随着订阅量的增多,每天数百条甚至上千条未读条目是不可避免的事实,哪些条目较为重要?能否精选100~200条新闻?对于信息的过滤,google阅读和其他常见RSS阅读器均未提供较好的解决方案,同时UC阅读存在反复刷新流量偏高的情况。 面对数百条未读新闻,不读,是遗憾,读了,又麻烦。 如果有这样一个应用,它可以按照用户的偏好推送相关的条目,包括新闻,博文,微博等媒介,并自动按用户的偏好分配条目的权重,将前100~200条展现给用户,会不会比较受欢迎? 如果它既有网页阅读版(兼容主流浏览器),又有PC的客户端阅读版(Win/Mac/Linux各平台均有),还有手机版(iOS/Android/Symbian/MeeGo各系统均有),会不会被更多人所接受? 实现智能订阅的核心问题将围绕三个词展开: 权重,热度,衰减 原理很简单,将新闻中权重靠前的条目推送给用户即可,然而权重如何确定?主要由标题中关键字被搜索次数决定,一个热门头条的关键字必然在短期内搜索量骤增,即热度较高。 但头条的重要性会随着时间的推移慢慢降低,公众会更关注更新的热门条目,这就是衰减。 如果一个新闻被追踪报道,那相关关键字的最新搜索量就会一直较高,对于这种热度持续的新闻,需要减缓热度的衰减速度,即进行一定的热度修正,从而影响权重。 每隔半小时从海量的订阅源抓取信息,保存在服务器上,并对原先的结果衰减一次,搜索结果称为“RSS海”。 服务器上有一组各分类中今日热度较高/骤增的关键词,称为“关键词池”,将RSS海中的各条目与关键词池比对,计算各条目权重,各分类选出权重前100的信息,此次筛选结果称为“RSS湖”。 按照用户的偏好,从RSS湖中选出100条条目,保存成xml文件反馈给用户。 对于提供给用户的分类,如互联网,房产,教育等频道,完全按默认方式确定权重。 若用户选择订阅了某个博客或微博,而此博客或微博已在服务器订阅的海量订阅源中,则将此博客和微博归类到相关分类,但在分配权重时给予较高的权重。 若上述博客或微博并未被服务器收录,但用户给出了大致的分类,则依然按上述方法确定权重。 若上述博客或微博既未被服务器收录,用户也未给出大致分类,则将此订阅源的更新内容基本原版地推送给用户。 大部分用户对实时性的要求并不很高 假使某个新闻刚出炉就被收录,而相关关键字还未被大量搜索,则这条新闻在分析权重时会被认为是无关紧要的内容,从而可能被忽略。但经过半小时到一小时后,关键词的热度将会骤增,此时即可给予正常的权重。 标题中的核心关键词只有3~5个 标题的核心关键词是有限的,所以经过3~5次的关键字比对符合后即可结束比对,减轻服务器负载。热门头条的关键词可能只有1~2个。 标题中的核心关键词的热度相仿 一条新闻的相关关键词被搜索的概率是差不多的,所以在3-5次的关键字比对符合后,它的首尾关键词在热度排行中的距离是相近的。 最新热门条目的关键词搜索量是骤增而非持续较高 一个新的热门条目,它的关键词热度一定是骤然增高,而非之前就一直很高,所以如果一条新闻的关键词热度骤增,则认为是新条目,而如果它最近的热度增加速率并没有脉冲式的变化,即使热度的基数较高,也认为是一条已经播报过的热门条目,不予录入。 热度持续较高的新闻通常会有后续故事 每隔6小时进行一次刷新,即对于标题与关键词比对时,若在很靠前的部分即完成了2~3次符合比对,且相应关键字在最近6小时内搜索量一直居高不下,则认为此新闻需要更新,给予一次录入(在之前每半小时抓录一次的情况下,除非关键词均为短期热度骤增,否则认为是重复新闻,不予录入) 重要的新闻,应该保留得久一些 对于关键词热度靠前的新闻,每隔半小时的热度衰减中给予较慢的衰减速度。 较为专业的条目,不能全依赖关键词搜索量 例如医学,软件开发等较为专业的分类,公众的参与度可能并不高,此时如果因为关键词搜索量较低就忽略此条目,可能将造成订阅结果偏向大众化,专业细分的订阅结果差强人意。所以在各分类中设定少量信息源的权重较高,使得相关信息源更新的条目即使其搜索量并不高,也能拥有较高的权重。 人才能实现真正的智能 不能全凭借公式化的筛选方法,在各分类设置专业人士负责信息的筛选以及审核,可能效果要更好。 每隔半小时所做的工作(从RSS海到RSS湖) 更新关键词池中各词的最近半小时搜索量,以及最近一段时间内搜索量的变化曲线,以半小时为单位。 衰减一次RSS湖中各条目的热度,权重靠前的衰减得慢。 清空RSS海的内容,再保存新的抓取结果。 将RSS海中各条目与相关分类的关键词池比对,比对符合3~5次则结束比对,
文档评论(0)