chap13网页预的处理.pptVIP

下载本文档

1
0
约4.98千字
约 38页
2017-10-21 发布于浙江
举报

chap13网页预的处理.ppt

chap13网页预的处理

利用维基百科利用维基百科发现实体利用维基百科进行消歧消歧是指对同一关键词，可能有不同的语义的分辨，如“苹果” / 所谓实体往往是指独立的、有各种独特特征的对象，如“山东大学”、“苹果”等分词和大规模中文信息检索之间的关系探讨在当前的信息检索技术中，中文切分是必要的。问题是否需要按语言学意义上的词进行切分。文档和查询二者的切分方法是否需要一致。是否检索系统使用的分词算法切分精度越高其检索结果就越好。分词和大规模中文信息检索之间的关系探讨基于字的切分：单字切分，二元切分和交叉二元切分基于词的切分：基于词典的匹配和基于统计的方法 7组关于切分方法的实验比较结论：字比词好：3组；词比字好：3组；二者差不多：1组 3组关于切分一致的实验比较结论：切分方法一致更好：1组切分方法不一致的更好：2组查询是基于字的切分时，文档是最大匹配切分的结果更好。查询是基于词的切分时，文档是基于字的切分的结果更好。分词和大规模中文信息检索之间的关系探讨两组实验： 1．基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。文档和查询采用同一种切分方法。 2．基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。查询采用人工切分的方法。实验环境：数据：北大提供的中文网页测试集CWT 部分数据。检索系统：麻州大学和卡内基梅隆大学

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

chap13网页预的处理.pptVIP