智能问答系统中命名实体识别问题的研究.docVIP

下载本文档

138
0
约5.05千字
约 11页
2018-10-27 发布于福建
举报
版权申诉

智能问答系统中命名实体识别问题的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

智能问答系统中命名实体识别问题的研究

智能问答系统中命名实体识别问题的研究　　摘要：信息化时代的到来，人们从互联网中快速获得大量的信息。如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起，促进了问答系统的发展。问答系统是构架于信息抽取之上，其影响着知识库的结构和解析问句的方式。命名实体是信息抽取领域的一个子集。所以本文主要是针对实体识别模型进行研究，本文介绍了三中主流实体识别模型的，并将股票实体作为研究对象，最终采用了CRF（Conditional Random Field）条件随机场模型。在该模型基础上根据上下文和词性特征，提出了CC-CRF识别算法。利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。　　关键词：股票；命名实体识别；CRF模型　　中图分类号：TP391.6 文献标识码：A 文章编号：1007-9416（2017）07-0093-04 　　命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。如何使计算机能够理解自然语言是智能问答系统需要解决的一个关键问题。自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。信息抽取领域中，命名实体识别作为重要分支[3]，其任务是标注语句中的实体，所以命名实体的识别有着非常关键的意义。作为文本的基本单位，它包含大量的语义信息，因此对命名实体进行识别可以保证最简单快捷的获得文本信息。他存在的价值就是标注语句中的实体，实体的识别对正确解析自然语言有着极其重要的作用。识别的实体领域一般为人名、机构名、地名以及专有名词等。在实际研究中，还需要根据具体要求来确定。本文中，要识别的实体为股票名称与股票代码[4]。命名实体识别在问句处理和知识库的构建方面发挥着关键性的作用。　　命名实体识别的方法主要有：基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。　　本文介绍了四种命名实体识别模型（基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型）以及每种模型的优缺点。在经过对比并且结合股票命名实体的特点，选择条件随机场作为投资领域命名实体的模型。并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。使用该模型对语料训练得到CC-CRF模型，并对模型的识别效果进行测试。　　1 相关工作与常规实体识别模型　　1.1 基于规则和词典的方法　　基于规则和词典的方法的核心是规则模板构造，但是模板的构造必须由相关领域的专业人士来进行。用其来识别该领域的命名实体。这种方式是该领域刚刚起步时候的识别方式。?@种方式的缺点十分明显：成本太高、需要大量的人力时间构造相关领域规则模板、可移植性差。因此此类方法不是本文的研究重点。　　1.2 基于统计的方法　　基于统计的方法的核心是机器学习。此类方法以训练语料为输入，利用语料对模型进行训练，最终得到命名实体识别模型并输出。基于统计的方式不需要专业的语言学人才，也极大地降低了时间成本。基于统计的方法主要包括：隐马尔科夫模型、条件随机场、最大熵模型等[6]。　　1.2.1 隐马尔科夫模型　　马尔科夫模型[7]用来描述一个随机过程，该随机过程不可被直接观察，但是可以通过另外一个可观察的随机过程间接观察。该模型有其局限性，他必须是建立在以下的条件上：严格的独立性假设，即观察值只受状态的影响，而不受其他条件的影响。并且作为一种产生式模型，它需要通过枚举出所有可能的观察序列来获得标注序列和观察序列的联合概率。这对于长距离序列来说，穷举所有的观察序列是不现实的。　　1.2.2 最大熵模型　　为了保证概率预测的随机性和正确性，在推测一个随机事件的概率时，不要作出除了客观约束条件规定以外的任何干涉。满足上述要求的模型，熵值一定是最大的[8]。在自然语言处理中，熵就是信息的不确定程度。熵值越大，分布所受的干涉越少，预测越接近真实情况。最大熵模型不需要严格的独立性假设，上下文信息可以被充分挖掘。它避免了隐马尔科夫模型的缺陷。另外，最大熵模型只需考虑如何选择特征。但是最大熵模型的时间复杂度非常高，而且可能发生标记偏置的情况。　　1.2.3 条件随机场模型（CRF）　　条件随机场（conditional random field，CRF）模型指的是给定输入变量的条件下得到输出变量的条件概率[9]。对应到命名实体识别中，条件随机场即为判别给定观察序列的标注序列的条件概率模型。条件随机场模型既保留了最大熵模型和隐马尔可夫模型的优点，又克服了他们存在的缺陷。CRF模型不需要独立性假设。它也避免了标记偏置问题。而且在性能上，条件随机场要优于其他两种方式。然而，较高的时间和空间消耗是制约条件随机场性能的缺点。　　CRF模型一般被看做无向图模型。设G=（V，E）为一个无向图，其中的顶点集合为V，