utf-8可以根据字的第一个字节移位推出长度的.ppt

utf-8可以根据字的第一个字节移位推出长度的.ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
utf-8可以根据字的第一个字节移位推出长度的

汉语分词:最大匹配方法 (6学时) 陈文亮 2016年3月14日 UTF-8编码 UTF-8是不定长的,根据左侧位1的个数来决定占用了几个字节,中文一般占2-4个字节 utf-8可以根据字的第一个字节移位推出长度的 0xxxxxxx占1个字节 110xxxxx 10xxxxxx占2个字节 1110xxxx 10xxxxxx 10xxxxxx占3个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx占4个字节 1.分词任务 中文分词的目的是将汉字序列切分为词序列 举例说明: 输入句子:他是研究生物化学的。 可能的分词:他 是 研究生 物化 学 的 。 他 是 研究生 物 化学 的 。 他 是 研究 生物 化学 的 。 合理答案:他 是 研究 生物 化学 的 。 2.最大匹配算法 从左到右寻找词的最大匹配(每次都从字典中贪心的找一个最长的词) 我们有一个词典,用于存放所有可能的词语,即除了单字,分词结果中的每个词均要在词典中出现。 文件的格式: 词总个数\t词的最大长度 word1 word2 … 如果你打开乱码…… UTF8文件记事本下显示乱码,可以在浏览器(或其他高级编辑器)中打开 2.最大匹配算法 从当前位置开始,向右截取最大长度,组成当前词; 和字典中的词逐一进行匹配; 若匹配成功,则进行下次匹配,下次匹配的当前位置则为这次词后面的那个字。 如果未能匹配,就缩短长度(长度减一)重新截取,直到当前词与词典中的词匹配或者当前词是单字; 2.最大匹配算法 举例: 给定句子:我是中国人 字典:中国、中国人 指定:词的最大长度m=3 2.最大匹配算法 句子:我是中国人 第一轮: 第一次:我是中是选取的词,在词典中未找到匹配项 第二次:我是是选取的词,在词典中未找到匹配项 第三次:我是选取的词,是单字,匹配成功 2.最大匹配算法 句子:我 是中国人 第二轮: 第一次:是中国是选取的词,在词典中未找到匹配项 第二次:是中是选取的词,在词典中未找到匹配项 第三次:是是选取的词,是单字,匹配成功 2.最大匹配算法 句子:我 是 中国人 第三轮: 第一次:中国人是选取的词,在词典中找到匹配项,匹配成功 至此,短句中所有字匹配结束,该短句分词结束。 3.分词算法评价 给定人工标注的分词答案,评价某一算法给出的结果。 正确率(Precision) =正确识别的个体总数 / 识别出的个体总数 召回率(Recall) = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 思考:评价程序应该怎么写? 3.分词算法评价 例子: 句子:我是中国人 分词:我是 中国人 答案:我 是 中国人 识别出的个体总数:2 正确识别的个体总数:1 测试集中存在的个体总数:3 正确识别的个体总数:1 正确率(Precision) = 1/2 = 50.00% 召回率(Recall) = 1/3 = 33.33% F值 = (1/2) * (1/3) * 2 / (1/2 + 1/3) = 40.00% corpus.sentence.txt格式 4.语料数据格式 corpus.answer.txt格式 4.语料数据格式 5.编程作业 要求:编程平台不限(windows、linux),编程语言不限(C、 C++) 任务:使用最大匹配算法、字典文件(corpus.dict.txt),对语料 (corpus.sentence.txt)进行分词 --将分词的结果输出到文件corpus.out.txt中; --对比corpus.answer.txt和corpus.out.txt,给出算法的P/R/F指标 输出:一个corpus.out.txt文件(格式参照corpus.answer.txt) P/R/F指标(格式类似于:Precision = 36 / 100 = 36.00%)

您可能关注的文档

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档