- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于招生咨询域的问答系统中答案抽取的研究
摘要:中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题,信息量需求非常大。开发基于招生咨询领域的自动问答系统是非常具有现实意义的。该文设计了一种基于招生咨询领域的自动系统,把蕴涵丰富招生咨询方面材料的文档库与常问问题答案库(FAQ)相结合,采用信息检索和答案抽取技术相结合,实现了从文档中自动得到答案的策略。
关键词:自动问答系统;答案抽取;常问问题答案库(FAQ库);文档库
中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)13-3414-03
1 前言
传统的搜索引擎已经成为人们获得信息最主要的检索工具。用户只需输入一些关键词,它们马上就会搜索到相关信息的网页。但是这些传统的搜索引擎存在很多不足的地方。一是很难以几个关键词的逻辑组合来表达清楚用户的检索意图;二是返回的相关网页太多,用户很难快速准确地定位到所需的信息;三是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。
自动问答系统(Automatic Question and Answering System),简称问答系统(QA),是指接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该提问的准确、简洁答案的信息检索系统。它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。
中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。如果采用普通搜索引擎,不仅浪费时间和精力去删选信息,而且往往还很难获得所需的确切答案;而如果采用人工回答的方式也不现实,不仅浪费人力物力,而且也不具有时效性。因此开发基于招生咨询领域的自动问答系统是非常具有现实意义的。
2 现状
国内的自动问答系统它们大体上可以分为两类:
1) 基于FAQ库的问答系统
比较典型的是上海交通大学的远程智能答疑系统。该系统的FAQ库存储了用户可能提出的问答对。系统根据用户输入的自然语言句子,自动抽取其中的关键词和库中问题进行关键词匹配,并将最匹配的问题的答案从库中返回给用户。也就是,这类系统只是采用简单的基于关键词的匹配技术,并没有涉及用户问句语义理解方面的技术。哈尔滨工业大学也开发过基于常见问题库的问答系统。与上面介绍的系统不同的是,它考虑了词语的语义,采用基于语义的句子相似度计算方法来实现问题的答疑。该系统运用知网计算用户问题与FAQ库中的问题的词语语义相似度,进而得到句子之间的相似度,将相似度满足一定条件的问题对应的答案从库中返回给用户,这种解答方式深入到了词语的语义。效果要比上面的系统好。
2) 基于全文检索的问答系统
基于全文检索的问答系统主要是用信息检索技术来实现。它的特点是知识库不是现成的问题答案对,而是相关文档库。对用户问句进行自然语言理解后,采用信息检索技术对文档库中的文档进行检索后,将文档按与查询的相关度排序输出,最后系统对相关度比较高的文档采用答案抽取技术进行答案抽取后返回给用户。
基于FAQ库的问答系统的答疑能力毕竟有限,只能回答局限于FAQ库中的问题,对于FAQ库内不存在的问题则无法给出较准确的答案。基于全文检索的问答系统,使系统可以回答的问题范围大大加大了,答疑能力得到大大增强。但是,用户的全部问题都完全利用信息检索技术来实现,系统的答疑速度会比较慢,一些用户常问的问题都要重复进行文档库的检索,会很浪费时间,影响用户对系统的使用。
鉴于以上的分析,本文设计的招生咨询领域的自动系统,把蕴涵丰富招生咨询方面材料的文档库与常问问题答案库(FAQ)相结合,采用信息检索和答案抽取技术相结合,实现了从文档中自动得到答案的策略。该方案使得系统对常问问题能快速给出解答,提高了系统的效率和准确率;同时系统还能自动回答FAQ库中没有存储的其他大部分问题,大大增强了系统的答疑能力和实用性。
3 系统设计
基于FAQ库及文本库的招生咨询领域自动问答系统的流程图如图1所示。
3.1 基本设计思想
首先用户提交问题,系统开始对问题进行分析。在问题分析阶段,主要包括问题类型识别、关键词提取、关键词扩展三部分。在问题分析阶段主要是获得问题的类型和关键字,以方便后续的检索与答案提取工作。
问题分析后,检索FAQ库(常问问题集库)。首先根据问题的类型,找到FAQ库对应类型的答案,组成候选问题集。然后对候选问题集逐个计算与用户问句的句子相似度,并设定一定的阈值。若计算出来的相似度大于等于该阈值,我们就认为FAQ库存在答案,此时,就可以将相似度最高的问题所对应的答案作为最终结果,提交给用户。
您可能关注的文档
- 基于数据融合和数据挖掘的DIDS设计.doc
- 基于数据挖掘的高职《C语言程序设计》课程能力培养分析.doc
- 基于数据挖掘的连锁超市决策支持系统.doc
- 基于数据挖掘技术的电信客户流失预测.doc
- 基于数据挖掘技术的电子政务.doc
- 基于数据挖掘技术的入侵检测系统框架.doc
- 基于数据挖掘技术在电力系统中的研究.doc
- 基于数据元的数据交换规范研究.doc
- 基于数据字典的Oracle联机考试系统的设计与实现.doc
- 基于数理化评价的色彩智能设计.doc
- 多点监督与特征融合校准:目标检测算法的创新与突破.docx
- 南宁市门诊HIV_AIDS患者抑郁状况剖析与影响因素探究.docx
- 医疗过失犯罪中客观归责理论的精准适用与深度解析.docx
- 南宁市低碳经济发展研究.docx
- 清解瘀毒胶囊对脑出血大鼠血红蛋白毒性作用及机制探究.docx
- 内蒙古赤峰市元宝山区农村小学教师培训:现状、问题与突破路径.docx
- 泉州开发区国有资产投资经营有限公司发展战略研究:基于区域经济与市场环境的分析.docx
- 能源利用效率与经济增长方式的深度耦合及中国战略抉择.docx
- 分布式信号波达方向 - 时延联合估计算法的深度剖析与创新探索.docx
- 新媒体环境下大学校园精神传播的创新变革.docx
最近下载
- 部编版五年级上册《道德与法治》全册教案(含教学进度表).docx
- 体育文化概论..ppt VIP
- 架桥机安装、拆卸专项施工方案(30m).doc VIP
- 《体育概论》第七章体育文化.pdf VIP
- 大疆 DJI Mavic 3 行业系列 - 用户手册 v1.9.pdf
- 压力管道安全管理人员培训.pptx VIP
- 1.《大青树下的小学》课件(共20张PPT).pptx VIP
- 学堂在线 中医与诊断-学做自己的医生 章节测试答案.docx VIP
- (正式版)H-Y-T 215-2017 近岸海域海洋生物多样性评价技术指南(正式版).docx VIP
- 2025年医学课件-常见继发性高血压诊治.pptx
文档评论(0)