山东大学-基于Web的信息检索和知识发现chap13.pptVIP

山东大学-基于Web的信息检索和知识发现chap13.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山东大学-基于Web的信息检索和知识发现chap13

利用维基百科 利用维基百科发现实体 利用维基百科进行消歧 消歧是指对同一关键词,可能有不同的语义的分辨,如“苹果” / 所谓实体往往是指独立的、有各种独特特征的对象,如“山东大学”、“苹果”等 分词和大规模中文信息检索之间的关系探讨 在当前的信息检索技术中,中文切分是必要的。 问题 是否需要按语言学意义上的词进行切分。 文档和查询二者的切分方法是否需要一致。 是否检索系统使用的分词算法切分精度越高其检索结果就越好。 分词和大规模中文信息检索之间的关系探讨 基于字的切分:单字切分,二元切分和交叉二元切分 基于词的切分:基于词典的匹配和基于统计的方法 7组关于切分方法的实验比较结论: 字比词好:3组; 词比字好:3组; 二者差不多:1组 3组关于切分一致的实验比较结论: 切分方法一致更好:1组 切分方法不一致的更好:2组 查询是基于字的切分时,文档是最大匹配切分的结果更好。 查询是基于词的切分时,文档是基于字的切分的结果更好。 分词和大规模中文信息检索之间的关系探讨 两组实验: 1.基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。文档和查询采用同一种切分方法。 2.基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。查询采用人工切分的方法。 实验环境: 数据:北大提供的中文网页测试集CWT 部分数据。 检索系统:麻州大学和卡内基梅隆大学合作开发的检索工具包Lemur 分词和大规模中文信息检索之间的关系探讨 分词和大规模中文信息检索之间的关系探讨 原因: 查询切分和文档切分采用相同的分词算法,有一些文件切分错误的词,在查询时也遇到相同的切分错误,所以即使切分阶段错误,但最后相同错误匹配,使得仍然可以正确检索到; 有些词被错误的切分成几个部分,尽管这样会导致分词正确率下降,但对于检索来说,最后可以通过结果合并得到正确的结果,分词的错误并不影响检索的性能; 分词测得的准确率高低并不是绝对的,有时跟用标准答案有关。这涉及到对词的定义问题,有些标准答案认为是该切分的词,实际上不切分用于检索更加准确一些。如:“国\内”vs”国内“ 、“民进党团”vs”民进\党团“vs”民进党\团“ 适用于大规模中文信息检索的分词算法 分词算法的时间性能要比较高。尤其是现在的web搜索,实时性要求很高。所以作为中文信息处理基础的分词首先必须占用尽可能少的时间。 分词正确率的提高并不一定带来检索性能的提高。分词到达一定精度之后,对中文信息检索的影响不再会很明显,虽然仍然还是有一些影响,但是这已经不是CIR的性能瓶颈。所以片面的一味追求高准确率的分词算法并不是很适合大规模中文信息检索。在时间和精度之间存在矛盾无法兼顾的情况下,我们需要在二者之间找到一个合适的平衡点。 切分的颗粒度仍然可以依照长词优先准则,但是需要在查询扩展层面进行相关后续处理。在信息检索中,分词算法只需要集中精力考虑如何消除交叉歧义。对于覆盖歧义,我们可以利用词典的二次索引和查询扩展来解决。 未登录词识别的准确率要比召回率更加重要。要尽量保证未登录词识别时不进行错误结合,避免因此切分出错误的未登录词。如果将单字错误的结合成未登录词了,则有可能导致无法正确检索到相应的文档。 预处理 网页的分类 页面分析 中文处理 网页分类 Hub网页 (Hub pages) 提供向导的网页,如新浪主页,特征是链接集合 主题网页(authority page) 通过文字具体说明一件或多件实物,如具体的新闻报道 图片、视频网页 是含图片或视频的主题网页,但文字特别少。 页面处理 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要对网页进行预处理。 近年微软亚洲研究院提出block based IR. 一般主题网页的结构 标题(关键词和概括) 正文 相关链接 导航信息 广告 装饰,Flash 版权,制作者信息等 网页分块方法(1) 基于位置关系的分块法 利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类; 实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页; 这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。 网页分块方法(2) 基于文档对象模型(DOM)的分块法 找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构; 特定标签包括heading、table、paragraph和list等; 在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。 HTML

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档