- 6
- 0
- 约4.82千字
- 约 13页
- 2017-08-31 发布于安徽
- 举报
信息检索复习要点
第一讲 网页采集
网页采集器的基本原理[简答题]
网页采集器的设计[题][简答题]
第二讲 分析处理
网页分析处理的必要性[简答题]
分词歧义的处理方法[简答题]
分词的设计[题]
将文章分成句子(通过标点符号来实现);
循环的读入每一个句子S,设句子中的字数为n;
设置一个最大词长度,就是我们要截取的词的最大长度 max
从句子中取n-max 到 n 的字符串 subword,去字典中查找是否有这个词。如果有就走(5),没有就走(6);
记住 subword,从 n-max 付值给 n,继续执行(4),直到 n=0.
将 max-1,再执行(4)。
最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。
基本细想:
一个待切分的汉字串可能包含多种分词结果
将其中概率最大的那个作为该字串的分词结果
分词算法:
对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ;
到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词;
按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词;
从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。
计算准确率、召回率和F值[计算
您可能关注的文档
- 电力系统快速静态安全分析改进算法.pdf
- 电力系统频率及有功功率自动调节.doc
- 电力线通讯(PLC)系统工程系列专刊(四):电力线通讯调变传输技术.pdf
- 电炉炼钢电气运行与电炉技术关系.docx
- 电路CAD课程设计之频率计.doc
- 电路第14章 线性动态电路复频域分析.ppt
- 电路教案第14章 线性动态电路复频域分析.doc
- 电路课件——运算电路.pdf
- 电路邱关源版第十四章线性动态电路复频域分析.ppt
- 电能质量远程实时监控系统.doc
- 第2课+古代世界的帝国与文明的交流高一下学期统编版必修中外历史纲要下.pptx
- 5.1 基因突变和基因重组(第1课时)课件高一下学期生物人教版必修2.pptx
- 第六章第四节 协同进化与生物多样性的形成课件-高一下学期生物人教版必修2.pptx
- 3.1重组DNA技术的基本工具课件高二下学期生物人教版选择性必修3.pptx
- 第1课 文明的产生与早期发展 课件高一下学期统编版必修中外历史纲要下(4).pptx
- 4.1被动运输 课件高一上学期生物人教版必修1.pptx
- 第15课 两次鸦片战争高一上学期统编版必修中外历史纲要上.pptx
- 第5课 南亚、东亚与美洲的文化 课件高二下学期历史统编版选择性必修3文化交流与传播(1).pptx
- 第11课 马克思主义的诞生与传播 课件高一下学期统编版必修中外历史纲要下(3).pptx
- 第17课 挽救民族危亡的斗争 课件--高一上学期统编版必修中外历史纲要上.pptx
原创力文档

文档评论(0)