面向Web应用的网页预处理.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向Web应用的网页预处理 搜索引擎的三个组成部分 天网流程 “整理”阶段的目标 便于服务的实现:效果,效率 效果 – 服务对用户的效果 例如搜索引擎,就要追求“相关性”之类 效率 – 不仅是用户感到的服务的效率,还有生成服务系统的效率 “不太优化”的流水线? 单服务目标还是多服务目标? 收集的海量网页数据是可以为多个应用目标服务的(发挥想象力) 常规搜索引擎 分类目录搜索引擎 主题搜索引擎(例如教育主题) 个性化搜索引擎(例如“天网知名度”) “反馈迭代式”搜索引擎 文本挖掘(语言学,新词的产生) 电子商务… 共同的基本需求 去除“噪音”(净化,purification) local noise,网页内和主题无关的内容,例如广告,版权信息,等等。 消除冗余 global noise,包括镜像站点,和转载复制(replica, near-replica),等等 不过,有的应用可能希望保持冗余, 例如Web InfoMall,以保持“历史的真实” Local noise对应用的影响举例 网页分类 由于噪音内容的主题无关性,训练集中的噪音内容会导致各个类别的特征不够明显,而待分类网页中的噪音内容则会导致该网页类别不明确,因而影响了网页自动分类的效果。 因此,训练网页和测试网页都应该“去噪” Local noise的影响 Web信息检索 如果不去掉噪音内容,建立索引时,一张网页会因为索引项在噪音内容中出现而被记录到倒排表中,因而在查询时,由于查询词在网页的噪音内容中出现而将该网页检索出来。 影响“查准率” Local noise的影响 重复网页的识别(消重) 相同的主题内容,由于放在了不同的模板中(噪音内容不同)导致应该被消掉但实际上被消重程序判断为非镜像网页而保留。 不同的内容,由于放在了相同的模板中,如果噪音很重,则可能导致不应该被消掉但实际上被消重程序判断为镜像网页而消掉。 一句话,局部噪音影响对网页主体内容的判断 全局噪音对应用的影响 浪费资源 抓取时间,存储空间 索引负担 建立索引时,必须对大量的重复网页建立索引,使倒排文件变得庞大。 影响服务效果 庞大的倒排文件直接影响提供服务时的响应速度,并且,检索结果中会出现大量的重复结果,不仅无价值,而且annoying。 倒排文件的大小对性能的影响 (后面专门分析) 数字图书馆有类似需要 传统的文本检索预处理(净化) 对文本的词汇分析 数字、标点、大小写等等 取掉停用词(stopwords) 去掉语义区分能力很低的词(例如“大家”,“我们”等) 对保留下来的词作词缀(英文)处理 保证能够将包含与查询词同根的文档检索出来 索引项的选取(也算是某种前期“特征提取”) 比如:通常名词比动词、形容词更具有语义信息 索引项的归类组织 便于用相关的词对查询词进行扩展(query expansion) Web网页带来的新特点(有好有坏) 文档内容的半结构性 HTML规范中定义了一套标签来规划网页内容的布局(如:TABLE、P)以及内容的显示方式(如:B、I、H1)。 其中规划布局的标签的结构在一定程度上蕴含了文档内容的语义关系;而描述内容显示方式的标签则蕴含了内容的重要性信息。 文档之间的超链接 网页中通常会有超链指向内容相关的网页,相关的超链蕴含着网页间内容相关性。 某些网页本身不含有主题内容,而仅包含一组超链指向其他的网页,称之为HUB网页(集散网页), 某些网页被许多其他网页引用(指向),意味着某种重要性,称之为authority网页(权威网页)。因此,通过链接情况可以在一定程度上判断一个网页在Web上的重要性。(在科技论文中,引用情况有同等效应) 文档内容的随意性 网页中的内容除了主题内容外,还通常包含广告、版权声明、导航条等噪音信息。 这些噪音内容会对基于网页内容的应用造成影响(如:网页分类、信息检索)。而广告等噪音内容通常是作为超链的anchor text出现的,因此噪音内容也对基于超链指向的应用造成影响(如:主题搜索)。 网页重复现象严重 Web上的网页存在大量重复的情况,一部分是对原始网页的完全考贝(称之为镜像网页),另一部分则是将原始网页中的主题内容放在不同的模板中转载(称之为转载网页)。 天网搜的中国互联网上从2002年12月-2003年4月的1.18亿网页,去掉镜像网页后只剩3000万,而再去掉转载网页后只剩余1800万。 仔细想想 不同的应用除了消除上述“local noise”和“global noise”的共同需求外,还有 文档的某种内部表示 例如,a bag of words 不同的应用要求可能不同 因此我们想,如果在“整理”阶段能提供某种综合的文档表示(“最大公因子”),能够适应不同应用,会有意义。 我们的目标 在原始网页内容的基础上,建立一种有

文档评论(0)

seunk + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档