中文信息处理-实验报告.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
报 告 正 文 1. 实验内容 (1). 使用任意分词方法实现汉语自动分词; (2 ). 给出至少 1000 个句子的分词结果(以附件形式); (3 ). 计算出分词结果的正确率,并给出计算依据; (4 ). 用实例说明所用分词方法分别对 “交叉歧义”和 “组合歧义”的处理 能力; (5 ). 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。 2.实验要求和目的 要求: (1). 自己准备词表; (2 ). 自己准备足够规模的语料; (3 ). 编程环境、汉字编码不限。 目的: (1). 实现分词方法,得到分词结果 (2 ). 统计出分词结果的正确率,检验方法的正确性 3.实验环境 Codeblocks,C++ 4.程序主要算法 1、正向最大匹配分词(Forward um Matching method, FMM)和逆向 最大匹配分词(Backward um Matching method, BMM 法) 。 2 、AC 自 算法(Aho-Corasick automation ),主要是用来统计词频用, 字符串匹配。起初从网上得到了一份没有词频的词表,然后将所有词语建立 AC 自 ,再对实验一中使用的 1800 万字的搜狗语料进行匹配,得到一份 词频。 3、对于 FMM 和 BMM 两个算法得到的分词结果,最后再使用一次双向 匹配法(Bi-direction Matching method, BM 法),将交叉歧义消除,由于缺乏 词语间的二元关系,用 BM 算法判断决定交叉歧义的方法主要还是利用词频 和词语的长度来确定。 5.实验过程 一、首先是在网上寻找词表,由于第一份找到的词表并没有词频,因此还需 要统计词频。采用 AC 自动计算法,跑了 1800 万字的语料,得到了该词表的 词频。后来搜到了搜狗的一个词表,带有词频的,但是只有词语,没有单个 的字,所以需要将两个词表合并一下。显示计算出每个词语的概率,然后进 行整合,重新计算总的概率即可。最终形成了一个词表,就是文件中的 aa2.txt二、 在词表已经准备好的情况下,第二步就是进行算法实现,显示简单的实现了 BMM 和FMM 算法,然后自己测了一些数据看看具体的情况,修改算法的bug , 基本上让两个算法没有什么问题,同时能够处理句子中含有标点符号的情况 (标点符号可能半角可能全角,这种情况是为了考虑后面语料中句子的质量 不高) 三、BM 算法的实现。因为 BMM 和FMM 算法得到的分词结果可能会出现交 集型歧义,因此需要将两者进行整合,利用 BM 算法对结果优化。这个时候 就需要建立一个处理交集型歧义和组合型歧义的模型。我在这个程序里采用 的模型如下: 1)如果 AJ/B 和 A/JB 歧义,因为此时这个子字符串长度相等,因此它不会 对后面的字符串造成影响,这里判断的原则是,如果某个字串中没有单个字 符,另一个有,那么按照没有单个字符的分(原因,能分成两个词的话按照 常理就比分成一个字和一个词好一些,虽然未必是这样);如果没有单个的子, 那么根据词语出现的概率的乘积,即 P(AJ)*P(B)和 P(A)*P(JB) 的大小进行比 较,按照大的分 2 )另外类型的交集型歧义,两个字串的长度不相等,那么这种情况下,就按 照长度大的那个分(原因,很可能是有一个长度比较长的短语或者成语,一 般不应该分了它) 3 )当按照 FMM 算法分的次数比按照 BMM 分的多两次时(由于情况 (2 ), (1)不计),那么之后所有的分法全部按照 FMM 分;反之亦然。 (原因,这 个原则起初并没有考虑,但是根据实际的句子测过之后发现,这样能够更加 准确。因为如果因为长度不等的交集型歧义,按照 FMM 分比按照 BMM 分多 了两次了,那么从句子上看,两者的位置已经不可能 在一起了,也就说 BMM 之后的分 越来越 (因为差两次至少差了两个字了),它后面都 会因为这差的两个字而产生巨大的偏差,因此 宁愿相信 FMM

文档评论(0)

zqj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档