- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
utf-8可以根据字的第一个字节移位推出长度的
汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日 UTF-8编码 UTF-8是不定长的,根据左侧位1的个数来决定占用了几个字节,中文一般占2-4个字节 utf-8可以根据字的第一个字节移位推出长度的 0xxxxxxx占1个字节 110xxxxx 10xxxxxx占2个字节 1110xxxx 10xxxxxx 10xxxxxx占3个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx占4个字节 1.分词任务 中文分词的目的是将汉字序列切分为词序列 举例说明: 输入句子:他是研究生物化学的。 可能的分词:他 是 研究生 物化 学 的 。 他 是 研究生 物 化学 的 。 他 是 研究 生物 化学 的 。 合理答案:他 是 研究 生物 化学 的 。 2.最大匹配算法 从左到右寻找词的最大匹配(每次都从字典中贪心的找一个最长的词) 我们有一个词典,用于存放所有可能的词语,即除了单字,分词结果中的每个词均要在词典中出现。 文件的格式: 词总个数\t词的最大长度 word1 word2 … 如果你打开乱码…… UTF8文件记事本下显示乱码,可以在浏览器(或其他高级编辑器)中打开 2.最大匹配算法 从当前位置开始,向右截取最大长度,组成当前词; 和字典中的词逐一进行匹配; 若匹配成功,则进行下次匹配,下次匹配的当前位置则为这次词后面的那个字。 如果未能匹配,就缩短长度(长度减一)重新截取,直到当前词与词典中的词匹配或者当前词是单字; 2.最大匹配算法 举例: 给定句子:我是中国人 字典:中国、中国人 指定:词的最大长度m=3 2.最大匹配算法 句子:我是中国人 第一轮: 第一次:我是中是选取的词,在词典中未找到匹配项 第二次:我是是选取的词,在词典中未找到匹配项 第三次:我是选取的词,是单字,匹配成功 2.最大匹配算法 句子:我 是中国人 第二轮: 第一次:是中国是选取的词,在词典中未找到匹配项 第二次:是中是选取的词,在词典中未找到匹配项 第三次:是是选取的词,是单字,匹配成功 2.最大匹配算法 句子:我 是 中国人 第三轮: 第一次:中国人是选取的词,在词典中找到匹配项,匹配成功 至此,短句中所有字匹配结束,该短句分词结束。 3.分词算法评价 给定人工标注的分词答案,评价某一算法给出的结果。 正确率(Precision) =正确识别的个体总数 / 识别出的个体总数 召回率(Recall) = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 思考:评价程序应该怎么写? 3.分词算法评价 例子: 句子:我是中国人 分词:我是 中国人 答案:我 是 中国人 识别出的个体总数:2 正确识别的个体总数:1 测试集中存在的个体总数:3 正确识别的个体总数:1 正确率(Precision) = 1/2 = 50.00% 召回率(Recall) = 1/3 = 33.33% F值 = (1/2) * (1/3) * 2 / (1/2 + 1/3) = 40.00% corpus.sentence.txt格式 4.语料数据格式 corpus.answer.txt格式 4.语料数据格式 5.编程作业 要求:编程平台不限(windows、linux),编程语言不限(C、 C++) 任务:使用最大匹配算法、字典文件(corpus.dict.txt),对语料 (corpus.sentence.txt)进行分词 --将分词的结果输出到文件corpus.out.txt中; --对比corpus.answer.txt和corpus.out.txt,给出算法的P/R/F指标 输出:一个corpus.out.txt文件(格式参照corpus.answer.txt) P/R/F指标(格式类似于:Precision = 36 / 100 = 36.00%)
您可能关注的文档
- 一、中国糖尿病知多少.ppt
- 低功率超声波去除铜绿微囊藻技术 - 华侨大学学报(自然科学版).pdf
- 台师大92年下, 原子分子光谱学.pdf
- 氧化催化剂研究进展 - 工业催化.pdf
- 不同加工方法对大蒜中大蒜素含量及清除no2 -作用的影响.pdf
- appendix 8a - 亚洲能源物流集团有限公司.pdf
- 沉积物中铁的化学相态分析进展 - 地球科学.pdf
- 橡胶用加工助剂emaster 550pt - 理研维他精化食品工业.pdf
- 表征及其荧光光谱 - 无机化学学报.pdf
- 建筑业主要指标 - 统计暨普查局.pdf
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)