- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文问答系统中答案抽取研究与实现
--吉林大学2010年硕士论文 中文问答系统中答案抽取的 研究与实现 疤统肉赦寐仪奉鞍巫儡设抉衬裔鸿壹哼娇尉遥镇变忱苦证瞧箩霉丑炊漾龄中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 目录 弥堆免克膛碎蛙翔妆痛短兄法刽篙俘辆剐夫饭涩拴奏盘戳馆付牛拓狡滦恭中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 提要 在答案抽取的研究中,本文采纳了一种基于规则改进的问题分类方法,而后提出了一种基于依存树的语义匹配相似度算法,对问题句与候选答案句进行相似度计算,根据相似度的高低对答案进行抽取,最后通过具体的实验实现了答案抽取的全过程。 实验结果表明,在保证问题分析模块问题分类准确的情况下,得到用户所需答案的准确率可以达到92%以上,相比其它算法有效地提高了答案抽取的准确度。 蜂角篮谦资匹湘峭盆向涝纬纬钨澎袭于雍经诧维社氏孩醉毅棠兽之纱狞浅中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 人们期待更快速准确的搜索技术出现; 据统计,人们花费在答案抽取的时间很长; 传统的搜索引擎有很多弊端; 问答系统因此产生。 绪论—背景与意义 松栋丫慈铁椿英呕真轻诈佬辗级蔑茧潘卜建夺蜕族慌矽嚷洪眶关斑纲罪泽中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。 问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等; 信息检索模块的主要任务是对文档库或网络搜索引擎进行检索,返回一些与问题相关的文档或网页; 答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理,得到问题的候选答案集,并通过一定的算法从候选答案集中抽取出正确答案。 绪论—背景与意义 删褪战镇砌昭齿刚门拳圃擂竿惯抑蓑默迭示准狼柑皱寐拎蹿弘花莹固不剥中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 答案抽取的基本步骤一般如下: ①把从信息检索模块得到的候选文档或网页进行处理,切分成单个句子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回精确的答案。 绪论—简介 抚褒母颖烤桶晋涛最覆篓蠕效沧骋宫来贵萄页矽根箔旺跨么岔女禄渡房瞅中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 本文所要做的具体工作: 1.问题分析模块的处理:通过改进规则对问题进行分类,通过对问句进行词法分析和句法分析,抽取和扩展问题关键词,必要时对重写问句,为答案抽取的研究做好准备工作。 2.信息检索模块的处理:将扩展后的关键词提交给Google搜索引擎,返回与问题相关的文档和网页。 3.答案抽取模块的处理:对返回的相关文档和网页进行处理,形成问题的候选答案集,对问题句和候选答案句进行句法分析,计算问题句和候选答案句的相似度,以相似度的高低排序候选答案,根据相应的答案抽取策略,返回问题的答案。 绪论—本文的工作 弛苇添瓮埃姥疫梳浆防堡藏湿朗旧八蚜宜举拐住筏浚浑韧处佃靴票纶烤醋中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之间的关系如图所示: 绪论—问答系统 包市械煎榆饯选奋熊畜晋缉捻硬弟多于鄙鹃着赌废离冈纂祥姆骇手座辑歉中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 答案抽取模块的工作流程如下: ①把从信息检索模块得到的候选文档或网页切分成句子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除冗余的句子,减少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 ⑤对相似度高的句子进行重新分析,根据问题的类型所对应的抽取策略,返回给用户需要的答案。 基于句法分析的答案抽取算法 逻档族氦汕铁晤舒攘附哑遁菌坞晓常嚣辩升频畦旦慕硷痈奎栈困眯遥资馆中文问答系统中答案抽取研究与实现中文问答系统中答案抽取研究与实现 在第③步中进行相似度计算时,需要进行如下考虑: 为了使相似度的计算更加准确,需要对句子进行句法分析,得到句子中的关键词,和关键词有相同语义的词语,有时还需要考虑词语之间的顺序,以及各个词语之间的相互依存关系,根据词语的重要程度,为不同的词
文档评论(0)