chap13网页预的处理.pptVIP

  • 1
  • 0
  • 约4.98千字
  • 约 38页
  • 2017-10-21 发布于浙江
  • 举报
chap13网页预的处理

利用维基百科 利用维基百科发现实体 利用维基百科进行消歧 消歧是指对同一关键词,可能有不同的语义的分辨,如“苹果” / 所谓实体往往是指独立的、有各种独特特征的对象,如“山东大学”、“苹果”等 分词和大规模中文信息检索之间的关系探讨 在当前的信息检索技术中,中文切分是必要的。 问题 是否需要按语言学意义上的词进行切分。 文档和查询二者的切分方法是否需要一致。 是否检索系统使用的分词算法切分精度越高其检索结果就越好。 分词和大规模中文信息检索之间的关系探讨 基于字的切分:单字切分,二元切分和交叉二元切分 基于词的切分:基于词典的匹配和基于统计的方法 7组关于切分方法的实验比较结论: 字比词好:3组; 词比字好:3组; 二者差不多:1组 3组关于切分一致的实验比较结论: 切分方法一致更好:1组 切分方法不一致的更好:2组 查询是基于字的切分时,文档是最大匹配切分的结果更好。 查询是基于词的切分时,文档是基于字的切分的结果更好。 分词和大规模中文信息检索之间的关系探讨 两组实验: 1.基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。文档和查询采用同一种切分方法。 2.基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。查询采用人工切分的方法。 实验环境: 数据:北大提供的中文网页测试集CWT 部分数据。 检索系统:麻州大学和卡内基梅隆大学

文档评论(0)

1亿VIP精品文档

相关文档