中文信息处理-实验报告.pdfVIP

下载本文档

45
0
约3.64千字
约 5页
2022-11-02 发布于北京
举报
版权申诉

中文信息处理-实验报告.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

报告正文 1. 实验内容（1）. 使用任意分词方法实现汉语自动分词；（2 ）. 给出至少 1000 个句子的分词结果（以附件形式）；（3 ）. 计算出分词结果的正确率，并给出计算依据；（4 ）. 用实例说明所用分词方法分别对 “交叉歧义”和 “组合歧义”的处理能力；（5 ）. 提交实验报告，给出详细实验过程和结果；提交源代码和可执行程序。 2.实验要求和目的要求：（1）. 自己准备词表；（2 ）. 自己准备足够规模的语料；（3 ）. 编程环境、汉字编码不限。目的：（1）. 实现分词方法，得到分词结果（2 ）. 统计出分词结果的正确率，检验方法的正确性 3.实验环境 Codeblocks，C++ 4.程序主要算法 1、正向最大匹配分词(Forward um Matching method, FMM)和逆向最大匹配分词(Backward um Matching method, BMM 法) 。 2 、AC 自算法（Aho-Corasick automation ），主要是用来统计词频用，字符串匹配。起初从网上得到了一份没有词频的词表，然后将所有词语建立 AC 自，再对实验一中使用的 1800 万字的搜狗语料进行匹配，得到一份词频。 3、对于 FMM 和 BMM 两个算法得到的分词结果，最后再使用一次双向匹配法（Bi-direction Matching method, BM 法），将交叉歧义消除，由于缺乏词语间的二元关系，用 BM 算法判断决定交叉歧义的方法主要还是利用词频和词语的长度来确定。 5.实验过程一、首先是在网上寻找词表，由于第一份找到的词表并没有词频，因此还需要统计词频。采用 AC 自动计算法，跑了 1800 万字的语料，得到了该词表的词频。后来搜到了搜狗的一个词表，带有词频的，但是只有词语，没有单个的字，所以需要将两个词表合并一下。显示计算出每个词语的概率，然后进行整合，重新计算总的概率即可。最终形成了一个词表，就是文件中的 aa2.txt二、在词表已经准备好的情况下，第二步就是进行算法实现，显示简单的实现了 BMM 和FMM 算法，然后自己测了一些数据看看具体的情况，修改算法的bug ，基本上让两个算法没有什么问题，同时能够处理句子中含有标点符号的情况（标点符号可能半角可能全角，这种情况是为了考虑后面语料中句子的质量不高）三、BM 算法的实现。因为 BMM 和FMM 算法得到的分词结果可能会出现交集型歧义，因此需要将两者进行整合，利用 BM 算法对结果优化。这个时候就需要建立一个处理交集型歧义和组合型歧义的模型。我在这个程序里采用的模型如下： 1）如果 AJ/B 和 A/JB 歧义，因为此时这个子字符串长度相等，因此它不会对后面的字符串造成影响，这里判断的原则是，如果某个字串中没有单个字符，另一个有，那么按照没有单个字符的分（原因，能分成两个词的话按照常理就比分成一个字和一个词好一些，虽然未必是这样）；如果没有单个的子，那么根据词语出现的概率的乘积，即 P(AJ)*P(B)和 P(A)*P(JB) 的大小进行比较，按照大的分 2 ）另外类型的交集型歧义，两个字串的长度不相等，那么这种情况下，就按照长度大的那个分（原因，很可能是有一个长度比较长的短语或者成语，一般不应该分了它） 3 ）当按照 FMM 算法分的次数比按照 BMM 分的多两次时（由于情况（2 ），（1）不计），那么之后所有的分法全部按照 FMM 分；反之亦然。（原因，这个原则起初并没有考虑，但是根据实际的句子测过之后发现，这样能够更加准确。因为如果因为长度不等的交集型歧义，按照 FMM 分比按照 BMM 分多了两次了，那么从句子上看，两者的位置已经不可能在一起了，也就说 BMM 之后的分越来越（因为差两次至少差了两个字了），它后面都会因为这差的两个字而产生巨大的偏差，因此宁愿相信 FMM