中文分词实验.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词实验 一、 实验目的: 目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。 实验要求: 1、 从互联网上查找并构建不低于10万词的词典,构建词典的存储结构; 2、 选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最 大匹配法等)。 3、 在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词 测试,记录并分析所选分词算法的准确率、分词速度。 预期效果: 1、平均准确率达到85%以上 二、 实验方案: 实验平台 系统:winlO 软件平台:spyder 语言:python 算法选择 选择正向减字最大匹配法,参照《搜索引擎-原理、技术与系统》教材第62 页的描述,使用python语言在spyder软件环境下完成代码的编辑。 算法流程图: Figure 0.正向减字最大匹配算法流程 Figure 0.切词算法流程 算法伪代码描述: 实验步骤 1) 在网上查找语料和词典文本文件; 2) 思考并编写代码构建词典存储结构; 3) 编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字; 4) 编写分词代码; 5) 思考并编写代码将语料标注为可计算准确率的文本; 6) 对测试集和分词结果集进行合并; 对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的 调和平均值); 思考总结,分析结论。 实验实施 我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行 了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子 提升了很多。 实验过程: 语料来源:语料来自SIGHAN的官方主页(.edu/) , SIGHAN是国际计 算语言学会(ACL)中文语言处理小组的简称,其英文全称为Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics,\ 又可以理解为“SIG 汉或“SIG,萸。SIGHAN 为我们提供了一个非商业使用(non-commercial)的免费分词语料库获 取途径。我下载的是Bakeoff 2005的中文语料。有86925行,2368390 个词语。语料形式:“没有孩子的世界是寂寞的,没 有老人的世界是寒冷的。〃 Figure 0. notepad++对语料文本的统计结果 词典:词典用的是来自网络的有373万多个词语的词典,采用的数据结 构为python的一种数据结构 集合。 Figure 0. notepad++对词典文本的统计结果 ⑶分割测试数据集:将原数据分割成1500个文本文件,每个文件的词数大于 1000 o Figure 0,测试数据集分解截图 Figure 0.其中某文件的形式 Figure 0. notepad++对其中一个测试文本的统计结果 编写分词代码:采用python语言和教材上介绍的算法思路,进行编程。 编写代码将语料标注为可计算准确率的文本:用B代表单词的开始字, E代表结尾的字,BE代表中间的字,如果只有一个字,用E表示。例如: 原数据是:人们常说生活 是一部教科书〃 而我将它转化为了如下格式: 人B 常E 说E 生B 活E 是E 一 E 部E 教B 科BE 书E 进行分词:使用之前编写的分词函数,载入文本,进行分词,将每个文 本结果输出到txt文本。 Figure 0,分词结果文件 Figure 9.测试数据的形式(文本截图) Figure 10.分词结果(文本截图) 用时17秒左右: Figure 11.运行时间 对测试集和分词结果集进行合并:将测试集和分词结果集合并是为了进 行准确率,召回率等的计算。测试集和训练集都是下面的格式: 人 B 们 E 常 E 说 E 生 B 活 E 是 E 一 E 部 E 教 B 科 BE 书 E 我将他们合并为下面的格式,第二列为测试集的标注,第三列为训 练集的结果: 人 B B 们 E E 常 E E 说 E E 生 B B 活 E E 是 E E —* E BE 部 E E 教 B B 科 BE BE 书 E E 对分词结果进行统计,计算准确率P,召回率R及F值(正确率和召回 率的调和平均值),设提取出的信息条数为C,提取出的正确信息条数为 CR,样本中的信息条数0: CR P =— C CR R =— 0 2 X P XR F = P +R 计算结果如下: 召回率R 准确率P F值 B 73.99% 76.42% 75.18% E 92.12% 76.41% 83.53% BE 40.05% 74.56% 52.11% 平均值 68.72% 75.79% 70.27% Table 0.第一轮分词统计结果 ⑼反思:平均准确率只

文档评论(0)

tangdehong1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档