基于内容分析中文问答处理算法及系统实现.docVIP

基于内容分析中文问答处理算法及系统实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容分析中文问答处理算法及系统实现

基于内容分析中文问答处理算法及系统实现   摘要:提出了一种基于HNC自然语言理解框架下的中文问答处理算法,并在此算法基础上加以系统实现。试验证明,该系统在中等规模常识库基础上效果显著、准确率高。   关键词:中文信息处理;问答系统;语言概念空间;语义相关度;HNC理论   中图法分类号:TP391??1文献标识码:A   文章编号:1001-3695(2006)09-0139-04      自然语言问答系统能够以简洁的答案,方便、高效地回答用户用自然语言提出的问题。   基于这种方式的信息检索无疑会给用户带来极大的方便,进而使得个性化的信息服务成为可能。国际上著名的文本检索会议TREC(TextRetrievalConfe-rence)于1999年第一次设立了QATrack。设立QATrack的目的就在于建立一个基于大规模文本知识库的、开放领域的自然语言问答系统。QATrack的设立到现在已经有五年多时间了,包括微软公司、卡耐基?裁仿〈笱А⒈鑫鞣?尼亚大学在内的多家著名研究机构投入了大量的精力,取得了一定的成绩。目前自然语言问答系统大致可以分为两类:①使用TRECQA作为测试语料,检索系统和答案抽取系统构建于该语料之上的;②基于互联网的中文问答系统,这一类系统原理与第①类基本相同,只是它通过互联网来获取与问题相关的信息,然后做进一步的处理来抽取问题的答案。无论是哪一类回答系统,都是基于一定的概率统计模型的,这样的系统往往是通过问题与答案间的词语相似度计算来确定答案的,处理算法局限于字词表层,很难深入到语义深层,因此很容易作出一些基于统计最优的错误判断,也就给这类方法在问题分析上带来了一定的局限性。??   HNC自然语言问答处理系统是在HNC(概念层次网络)自然语言理解框架之下提出来的,它充分利用了HNC句类以及语义块知识,通过揭示句子内语义块之间的各种关联,以句类框架的形式给出处理所需的中间信息,这种中间信息是关于语句内容的概念表达。通过提取块内关键内容信息与常识知识库匹配得出最终结果。这种方法依据问询句和知识库的内容进行处理,有助于克服基于语料库和概率统计模型方法在解决问题上可能存在的一些不足。??      1问答系统原理??      1.1问答系统的特点??   自然语言问答处理系统一般分为三个阶段:问题分析、信息检索和答案抽取。与之相对应的HNC自然语言问答处理系统也分为三个阶段,分别是问题理解、问题求解和应答文本生成,阶段性非常明显。与传统基于统计的问答系统不同,HNC问答系统对信息的处理是建立在理解的基础之上的,所以我们把第一阶段的任务归结为对问题的分析理解,主要目的是弄清楚用户要问的问题是什么,传统问答系统第一阶段的任务一般包括问题的分类、关键词的提取和关键词扩展。如果是中文,还需要进行分词处理。HNC问答系统则是对用户所提出的问询句进行句子语义类别分析操作,从而确定句子所属的句子语义类别以及获得与此相关的要点框架。??   传统问答系统信息检索模块返回的是一堆相关的文档,然后答案抽取模块从这些相关的文档中找出相关的答案(一句话或者是一段)提交给用户。答案抽取是问答系统的最后一部分,也是难度最大的一部分,如果答案抽取模块不能准确地把正确答案抽取出来,将严重影响整个问答系统的准确性。??   HNC问答系统则不同,HNC问答系统根据问题理解所得到的句子语义类别信息以及要点框架信息,通过与预先设定的、问题的多维度语义表示框架进行语义相关度计算后的结果来确定问题求解的多维度语义表达的分量(下文简称语义分量)。多维度语义表示框架是语义分量的一个集合,各语义分量具有确切的工程含义,如时间、地点、人物、事件或者针对某一个对象的不同方面描述;系统再根据问题中对象的这些语义分量从常识知识库中直接抽取答案,形成一定的数据结构;最后根据这一数据结构,利用句子语义框架知识生成应答文本,返回给用户。这中间包括了一个自然语言生成的过程,而不是简单地将一包含答案的句子返回给用户。??      1.2问答系统原理说明??   系统主张将自然语言表述的知识划分为概念、语言和常识三个独立的层面,并且不同层面形成各自的知识库,HNC概念化、层次化、网络化的概念基元符号体系为实现这一目标提供了充分的保障。??   首先我们来看语言层面和语言概念层面间的词语映射问题,这种映射是以语义为基础的。对于任意一个语言概念空间中概念类C,它可以看成唯一对应概念空间中的某一种或者某一类概念节点,而对于语言空间中的词语集合W,我们将W和C之间建立对应关系,那么对于每一个属于词语集合W的w,存在一个带权值的词语到概念类的映射关系。假设词语wn到概念类C的权值用Vn来表示,所有词语映射的集合就形成了一个映射向量空间V(V

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档