东北大学软件工程硕士--信息检索复习题及答案.docVIP

下载本文档

6
0
约4.82千字
约 13页
2017-08-31 发布于安徽
举报

东北大学软件工程硕士--信息检索复习题及答案.doc

信息检索复习要点第一讲网页采集网页采集器的基本原理[简答题] 网页采集器的设计[题][简答题] 第二讲分析处理网页分析处理的必要性[简答题] 分词歧义的处理方法[简答题] 分词的设计[题] 将文章分成句子（通过标点符号来实现）；循环的读入每一个句子S，设句子中的字数为n；设置一个最大词长度，就是我们要截取的词的最大长度 max 从句子中取n-max 到 n 的字符串 subword，去字典中查找是否有这个词。如果有就走（5），没有就走（6）；记住 subword，从 n-max 付值给 n，继续执行（4），直到 n=0. 将 max-1，再执行（4）。最大概率分词法：列出可能的拆分结果，查表，结果大的，为最终结果。基本细想：一个待切分的汉字串可能包含多种分词结果将其中概率最大的那个作为该字串的分词结果分词算法：对一个待分词的字串 S，按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ；到词典中查出每个候选词的概率值P(wi) ，并记录每个候选词的全部左邻词；按照公式1计算每个候选词的累计概率，同时比较得到每个候选词的最佳左邻词；如果当前词wn是字串S的尾词，且累计概率P (wn)最大，则wn 就是S的终点词；从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即为S的分词结果。计算准确率、召回率和F值[计算

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

东北大学软件工程硕士--信息检索复习题及答案.docVIP