东北大学软件工程硕士--信息检索复习题及答案.docVIP

  • 6
  • 0
  • 约4.82千字
  • 约 13页
  • 2017-08-31 发布于安徽
  • 举报

东北大学软件工程硕士--信息检索复习题及答案.doc

信息检索复习要点 第一讲 网页采集 网页采集器的基本原理[简答题] 网页采集器的设计[题][简答题] 第二讲 分析处理 网页分析处理的必要性[简答题] 分词歧义的处理方法[简答题] 分词的设计[题] 将文章分成句子(通过标点符号来实现); 循环的读入每一个句子S,设句子中的字数为n; 设置一个最大词长度,就是我们要截取的词的最大长度 max 从句子中取n-max 到 n 的字符串 subword,去字典中查找是否有这个词。如果有就走(5),没有就走(6); 记住 subword,从 n-max 付值给 n,继续执行(4),直到 n=0. 将 max-1,再执行(4)。 最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。 基本细想: 一个待切分的汉字串可能包含多种分词结果 将其中概率最大的那个作为该字串的分词结果 分词算法: 对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ; 到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词; 按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词; 如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词; 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。 计算准确率、召回率和F值[计算

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档