中文分词技术在智能评分系统中应用研究.docVIP

下载本文档

2
0
约2.61千字
约 6页
2018-07-03 发布于福建
举报
版权申诉

中文分词技术在智能评分系统中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词技术在智能评分系统中应用研究

中文分词技术在智能评分系统中应用研究　　摘要：在计算机考试系统开发过程中，对于主观题的智能评分一直是重点，也是难点，而在主观题评分中首要解决的问题就是中文分词技术，本文就现有的中文分词技术做分析比较，并根据智能评分系统应用研究中具体做法做出分析。　　关键词：中文分词；依据词典；智能评分系统　　中图分类号：TP391 文献标识码：A 文章编号：1674-7712 （2014） 02-0000-01 　　随着信息技术的普及和发展，计算机智能阅卷已经得到了广泛的应用，如：大学英语等级考试、计算机等级考试等国家级考试中的客观题都参用了计算机智能阅卷。同时一些远程考试系统在主观题智能评分方面也取得了许多成果，中文分词是自然语言处理系统中的重要步骤，而主观题智能评分首要解决的问题就是中文分词，本文试从现有的中文分词技术进行了探讨，并就智能评分系统中的应用做出研究分析。　　一、中文分词技术概述　　中文分词是指按照一定的算法，将一个中文序列切分成一个一个单独的词。分词就是计算机自动识别文中词的边界的过程。我们知道，在英文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，人工在阅读时，都需要通过对句子分词才能正确理解意思，可见中文分词技术对主观题智能评分有着重要的意义。　　二、现有的中文分词技术　　在近30年的研究中，各位开发人员研究了中文分词技术在词典和概率方面统计的一些算法。目前中文分词主要算法有三大类：依据词典的分词方法，依据统计的分词方法，依据理解的分词方法。　　下面简要介绍一下这些算法。　　（一）依据字典的分词算法。又名机械分词算法，此方法是根据词库确立词典，然后以一定策略将准备分析的中文字符串和这个词典中的各词进行比对，如果在词典中能找到，则比对成功，那么就需要一个相当大容量的中文词典，词典的词语越广泛，分词的越准确。　　依据比对方向的不一样可分为正向比对和逆向比如；依据长度比对的情况，分为最大比对和最小比对；其中最常用的方法是正向最大比对法和逆向最大比对法。　　正向最大比对法（Maximum Matching Method，其主要思想为：从待匹配的文本串最左端开始，依次取出1，2，3，…n个字符来与已有的词典比较，看看在词典中是否有这个词，若有，则匹配成功，将它放入词队列或数组中暂存，接着对中文语句/字串中剩余的部分进匹配，直到全部分词完毕。正向最大匹配算法按照从左到右的顺序进行匹配，在分词要遵循所谓的最大化原则，即确保已扫描出的词不是某个已存在词的前缀。　　逆向最大比对法（Reverse Maximum Matching Method）。RMM法的主要原理与MM法相同，区别在于分词的扫描方向。　　如A代表词典，MAX表示A中的最长文本串长度，string为准备切分开的字符串。MM法是从string中取出长度为MAX的子串（即最长文本串）和A中的词条进行比对。如果成功，那么该子串为词，然后指针向后移MAX个汉字后继续比对，否则该子串每次减少一个进行比对。　　由于汉语多数情况下中心词位置相对靠后，所以逆向最大匹配法的精度要高于正向最大匹配法，在实际应用中通常将正向最大匹配算法与逆向最大匹配算法两者结合起来使用，这样可提高分词结果的正确率。　　（二）依据统计的分词算法。该方法的主要思想：词是稳定的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。从统计学上讲就是求概率的问题，可以通过对训练文本中相邻出现的各个字的组合的频率进行统计学习，计算它们的互现信息得出规律。在中文处理时，如果文本串中的字与字互现信息大于某个值时，就可以判断此字组可能构成了一个词。该方法又称为无字典分词。　　互现信息的计算，设有词A和B，AB之间的互现信息为：　　M（A，B）= 其中为A、B相邻出现的频率，为A出现的频率，为B出现的频率。　　（三）依据理解的分词算法。该方法又称依据人工智能的分词方法，这种方法模拟了人对句子的理解过程，其基本思想就是对文本串进行句法、语义理解，并利用句法信息和语义信息来进行分词并处理歧义现象。　　此算法一般包括三个部分：分词子系统、句法语义子系统和总控部分。分词子系统是在总控部分的协调下，来得到有关的词、句子等的句法，通过语义信息对分词中的歧义进行判断的。此分词方法通常使用较大量的语言知识及信息。由于汉语中语言知识较为笼统、复杂，很难将各种语言信息完全组织成机器可直接读取的形式，因此目前依据理解的分词系统还不成熟。　　三、中文分词算法在智能评分系统中的应用　　就以往客观题人工阅卷过程来看，教师通常首先查看正确答案中的关键点，然后再与学生答案对比，通过学生答对关键点所占的比重来确定学生得分情况。