- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
报 告 正 文
1. 实验内容
(1). 使用任意分词方法实现汉语自动分词;
(2 ). 给出至少 1000 个句子的分词结果(以附件形式);
(3 ). 计算出分词结果的正确率,并给出计算依据;
(4 ). 用实例说明所用分词方法分别对 “交叉歧义”和 “组合歧义”的处理
能力;
(5 ). 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。
2.实验要求和目的
要求:
(1). 自己准备词表;
(2 ). 自己准备足够规模的语料;
(3 ). 编程环境、汉字编码不限。
目的:
(1). 实现分词方法,得到分词结果
(2 ). 统计出分词结果的正确率,检验方法的正确性
3.实验环境
Codeblocks,C++
4.程序主要算法
1、正向最大匹配分词(Forward um Matching method, FMM)和逆向
最大匹配分词(Backward um Matching method, BMM 法) 。
2 、AC 自 算法(Aho-Corasick automation ),主要是用来统计词频用,
字符串匹配。起初从网上得到了一份没有词频的词表,然后将所有词语建立
AC 自 ,再对实验一中使用的 1800 万字的搜狗语料进行匹配,得到一份
词频。
3、对于 FMM 和 BMM 两个算法得到的分词结果,最后再使用一次双向
匹配法(Bi-direction Matching method, BM 法),将交叉歧义消除,由于缺乏
词语间的二元关系,用 BM 算法判断决定交叉歧义的方法主要还是利用词频
和词语的长度来确定。
5.实验过程
一、首先是在网上寻找词表,由于第一份找到的词表并没有词频,因此还需
要统计词频。采用 AC 自动计算法,跑了 1800 万字的语料,得到了该词表的
词频。后来搜到了搜狗的一个词表,带有词频的,但是只有词语,没有单个
的字,所以需要将两个词表合并一下。显示计算出每个词语的概率,然后进
行整合,重新计算总的概率即可。最终形成了一个词表,就是文件中的 aa2.txt二、
在词表已经准备好的情况下,第二步就是进行算法实现,显示简单的实现了
BMM 和FMM 算法,然后自己测了一些数据看看具体的情况,修改算法的bug ,
基本上让两个算法没有什么问题,同时能够处理句子中含有标点符号的情况
(标点符号可能半角可能全角,这种情况是为了考虑后面语料中句子的质量
不高)
三、BM 算法的实现。因为 BMM 和FMM 算法得到的分词结果可能会出现交
集型歧义,因此需要将两者进行整合,利用 BM 算法对结果优化。这个时候
就需要建立一个处理交集型歧义和组合型歧义的模型。我在这个程序里采用
的模型如下:
1)如果 AJ/B 和 A/JB 歧义,因为此时这个子字符串长度相等,因此它不会
对后面的字符串造成影响,这里判断的原则是,如果某个字串中没有单个字
符,另一个有,那么按照没有单个字符的分(原因,能分成两个词的话按照
常理就比分成一个字和一个词好一些,虽然未必是这样);如果没有单个的子,
那么根据词语出现的概率的乘积,即 P(AJ)*P(B)和 P(A)*P(JB) 的大小进行比
较,按照大的分
2 )另外类型的交集型歧义,两个字串的长度不相等,那么这种情况下,就按
照长度大的那个分(原因,很可能是有一个长度比较长的短语或者成语,一
般不应该分了它)
3 )当按照 FMM 算法分的次数比按照 BMM 分的多两次时(由于情况 (2 ),
(1)不计),那么之后所有的分法全部按照 FMM 分;反之亦然。 (原因,这
个原则起初并没有考虑,但是根据实际的句子测过之后发现,这样能够更加
准确。因为如果因为长度不等的交集型歧义,按照 FMM 分比按照 BMM 分多
了两次了,那么从句子上看,两者的位置已经不可能 在一起了,也就说
BMM 之后的分 越来越 (因为差两次至少差了两个字了),它后面都
会因为这差的两个字而产生巨大的偏差,因此 宁愿相信 FMM
您可能关注的文档
最近下载
- 2023中国绝经管理与绝经激素治疗指南(最全版).pdf VIP
- JJF 1171-2024 温湿度巡回检测仪校准规范.pdf VIP
- 增材制造(3D打印)国内外发展状况报告.docx
- 中职语文高教版2023职业模块一《展示国家工程,了解工匠贡献》 课件.pptx VIP
- 法律风险防控培训课件.pptx VIP
- 可信研发运营安全能力成熟度水位图报告-202312.docx
- 中职哲学与人生教案:用对立统一的观点看问题(全2课时).pdf VIP
- 工会法知识竞赛试题库及答案(200题).doc VIP
- 四川党政领导干部政治理论水平考试综合能力测试题及答案.docx VIP
- 智能监控模块系统说明书.pdf
原创力文档


文档评论(0)