- 4
- 0
- 约4.82千字
- 约 12页
- 2017-08-20 发布于浙江
- 举报
信息检索复习要点
第一讲 网页采集
网页采集器的基本原理[简答题]
网页采集器的设计[题][简答题]
第二讲 分析处理
网页分析处理的必要性[简答题]
分词歧义的处理方法[简答题]
分词的设计[题]
将文章分成句子(通过标点符号来实现);
循环的读入每一个句子S,设句子中的字数为n;
设置一个最大词长度,就是我们要截取的词的最大长度 max
从句子中取n-max 到 n 的字符串 subword,去字典中查找是否有这个词。如果有就走(5),没有就走(6);
记住 subword,从 n-max 付值给 n,继续执行(4),直到 n=0.
将 max-1,再执行(4)。
最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。
基本细想:
一个待切分的汉字串可能包含多种分词结果
将其中概率最大的那个作为该字串的分词结果
分词算法:
对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ;
到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词;
按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词;
从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。
计算准确率、召回率和F值[计算
您可能关注的文档
- Windows的多线程同驳慕实验报告.doc
- windows服务器维护拥碾管理教程与实训第四章.ppt
- Windows系统文件扩盏墓名.doc
- Windows网络应用及暗牟全.ppt
- Windows系统通用(非的ghost)安装教程.pdf
- WinImage_制作_大IM的G软盘镜像.doc
- Winrar使用教程的.doc
- WinRAR教程的.doc
- WinRAR用法的.doc
- WinRAR解压程序全面的介绍.doc
- 陕西省渭南区解放路中学2026届高三第三次测评英语试卷含解析.doc
- 2026届吉林省桦甸四中、梅河五中、蛟河一中、柳河一中、舒兰一中、辉南六中重点高中盟校高三下学期专项练习数学试题.doc
- 辽宁省沈阳市回民中学2026届高三第四次模拟考试生物试卷含解析.doc
- 湖南省株洲市醴陵四中2026届高三考前热身化学试卷含解析.doc
- 广西柳州市名校2026届高三下学期第六次检测生物试卷含解析.doc
- 护理礼仪的护理团队协作技巧.pptx
- 2026届天津市塘沽一中高考物理三模试卷含解析.doc
- 浙江省衢州二中2026届高三下学期第六次检测物理试卷含解析.doc
- 福建省福州市鼓楼区2026届高考临考冲刺生物试卷含解析.doc
- 2026届山东省菏泽一中、单县一中高三下学期第六次检测英语试卷含解析.doc
原创力文档

文档评论(0)