自动答疑系统中文自动分词模块设计和实现.docVIP

下载本文档

5
0
约2.8千字
约 7页
2018-10-10 发布于福建
举报
版权申诉

自动答疑系统中文自动分词模块设计和实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自动答疑系统中文自动分词模块设计和实现

自动答疑系统中文自动分词模块设计和实现　　摘要随着科技的进步，自动答疑系统开始广泛的应用在了网络教育平台中，作为网络教育平台的重要组成发挥着非常重要的作用，它不但可以帮助加强师生之间的交流，还能够让学生认识到问题的本质，通过本质看问题迅速得到正确的答案信息。本文主要介绍了中文自动答疑系统中的FAQ库、领域文本知识库组织方式；并且阐述了问题的理解、检索、求解等模块的设计方案，通过这些方案力求满足网络教育平台的需求，本系统在实际的应用中也起到了非常重要的作用。　　【关键词】中文自动答疑 FAQ库信息检索　　随着经济的发展，科技的进步，一些高科技的软件开始进入人们的生活。其中自动答疑系统就是典型的软件产品，它主要是一种利用语言的处理技术来自动分析用户所提出的问题的一种软件，这种软件可以自动给予问题的答案。其工作流程主要包括识别用户提交的每一句问题，然后对这些问题进行分词，在这个分词过程中运用到了中文分词模块，它在整个系统中起到非常重要的作用。自动答疑系?y中的软件开发环境是Visual-Prolog。它是利用Prolog语言来进行编写的一种软件，其主要优点包括具有模式匹配、内置数据库、合一等等，这些优点可以看出它非常适合中文分词模块的编写。本文主要阐述了自动答疑系统中的中文分词模块的设计，希望在对自动答疑系统的下一阶段研究中，根据科学提出的需求进一步完善系统功能。　　1 自动答疑系统的问句特点　　1.1 面向具体课程　　在词典中有很多词汇没有收录，我们把这种词汇叫做未登录词，这种词汇通常分为两类，其一是新出现的一些词汇或者是不常见的一些专业词汇；其二是一些不知名的人名、地名等。由于整个答疑系统是面向具体的课程，因此在答疑过程中遇到第二类词汇的几率很小，即使遇到第一类词汇也可以穷尽。　　1.2 专业词汇和疑问词　　自动答疑系统相对于传统的系统来讲功能比较完善，特别是在答疑系统中的问句部分，在我们正常语言中问句包括专业词汇和疑问词汇。无论是专业词汇还是疑问词汇都要在系统能识别出来，这样才能体现自动答疑系统的智能性。　　1.3 专业词汇不易产生歧义，遵循长词优先原则　　在自动答疑系统中的问句中的专业词汇基本上都是一种意思，不会出现一词多意的情况。除此之外专业词汇还会遵循长词优先的原则。　　2 中文自动分词算法　　在进行中文自动分词算法的选择中根据自动答疑系统的问句特点选用基于词典的字符串最大匹配法，在这其中遵循专业词汇和疑问优先的原则，不考虑未登记词汇，根据这些要求来选择自动分词算法。基于词典字符串最大匹配法是一种最基础的分词方法，在匹配的过程中又包括正向最大匹配和逆向最大匹配。自动答疑系统所采用的算法是双向最大匹配法，这种方法是经过改进和完善的算法，利用这种算法如果出现分歧义时就会采用最小切分原则把最小的词数切分出来。如果在切分的过程中出现切分词数相同的歧义切分就利用词频来消除歧义，如果词频也无法消除歧义就选用逆向最大匹配法来切分。　　3 中文自动分词模块的实现　　分词词典的实现：　　（1）词的表示：　　定义论域w和wl分别表示词和词序列。　　domains 　　w=w（string V，iWeger F，s}ring-list（c）. 　　wl=w* 　　（2）构建分词词典：　　在自动答疑系统中分词词典的构件是在Visual-Prolog的环境下利用其内置的数据库完成的，这种数据库技术被称为链式的数据库技术，它主要包括两个部分，也就是对应的B+树和链形式。在分词词典的创建过程中，首先要把词作为一项数据放到数据库中，然后再将此数据和数据库中的参照数进行对比，插入B+树。在插入数据库中要把这种数据写成w（V，F，C）形式。　　构建词典的代码如下：　　DB =chainDB：：db_ create （DB ， chainDB：：in_file（））　　DB：bt_create（Index，Index ，10，1，1）　　DB：chain_insertz（WORDS，w（V，F，C）， Ref）　　DB：key_insert（Index ，V ，Ref）　　DB：beclose（Index）　　DB：db_close（）　　（3）检索分词词典代码如下：　　DB_ Temp=chainDB：：db_open（DB，chainDB：：in_file（））　　DB_ Temp：db_copy（hemp，chainDB：：in_memory（））　　DB=chainDB：：db_open（hemp ，chainDB：：in_memory（））　　DB_ Temp：db_close（）　　DB：bt_open（In