信息抽取技术研究与探讨.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2010年第4期 福 建 电 脑 55 信息抽取技术研究与探讨 伍守芹 .李晓昀 (1、湖南衡阳广播 电视大学 湖南 衡阳 421001 2、南华大学计算机科学与技术学院 湖南 衡阳 421001) 【摘 要】:对信息抽取技术的发展背景、概念进行 了概述。详细介绍了信息抽取中研究的四个关键技术:命名实体识 别、实体关系抽取、指代消解及事件探测。根据采用模型的不同,对信息抽取进行 了分类介绍,分别指出了各类抽取方法的优 点、缺点及研究难点。最后。对国内外在信息抽取领域中的研究现状及应用状况进行了分析,进一步说明了信息抽取技术的 发展趋势。 关【键词】:信息抽取;自然语言处理;隐马尔科夫模型;最大嫡模型;条件随机场 0、引言 该方法通过对文本中词、词形、语法、语义、篇章和语用 的分 信息抽取 (InformationExtraction。IE)是从给定 自由文本或 析。对文本进行深人理解 .抽取信息。由于所需知识量大,过程复 半结构化文本 中抽取预先指定的实体、关系和事件等事实信息。 杂.效率较低。在处理深度方面,信息抽取与文本理解的深度差 形成具有清晰语义信息的结构化文本 的技术 。结构化文本是根 别较大 :信息抽取只需获取指定文本的片断,进行浅层的 自然语 据预规定格式严格生成 的文本 .布局 良好 .便于存储 、处理及重 言文本处理 :而文本理解则须推测文本作者 的写作 目的,要求的 复利用 自由文本是由合乎某种语言表达规范的自然语言语句 理解层次更深 组成 。表达方式多样 ,较难抽取 。半结构化文本是一种介于 自由 2.2基于统计 的方法 文本与结构化文本之间的文本 。 (1)隐马尔科夫模型(HiddenMa~ovModel,HMM) l、关键技术 隐马尔科夫过程是一种双重随机过程:①观察事件是依存 1.1命名实体识别NamedEntityRecognition.NER) 于状态的概率函数:②状态转移随机过程。这一程是隐藏着的, NER是 IE最基本 的任务 .指从文本 中识别 出专有名称和 只有通过生成观察序列 的另外一个概率过程才能 间接地观察 有意义的数量短语 .并加 以归类 的过程 。命名实体狭义上指现实 到。在信息抽取 中.一个 HMM对应于一个模板 ,模型中的各个 世界中具体的或抽象的实体,如人名、组织名、地名;广义上还包 状态对应该模板的各个属性槽。待抽取的标注文本为该模型的 含时间、数字表达式等。NER能提供浅层但关键的语义信息,在 一 种输出结果。这样训练得到的HMM,可通过寻找最佳路径,该 指代消解 、问答系统、信息抽取 、机器翻译 、文本摘要 中应用广 路径上各输 出及其对应的状态即抽取结果 。HMM 易建立、适应 泛 。NER质量直接影响最终抽取质量。国内外在这方面已有大 性好、抽取精度高,有较强可扩充性,只要训练获取合适 的模型 量工作。如在MUC、ACE等会议推动下.英语、日语 的NER成功 参数 .即可对更复杂 的文本类型进行抽取 。HMM应用广泛 ,但要 率 已达到人类专家水平 :而 中文 NER还处于起步阶段。NER有 求大量训练才能获取模型参数 .不能保证获取最佳值 。必要时需 基于规则和基于统计两种方式 .研究难点在:①分类模糊问题 ; 要人工调整 ;另外 ,对于单文本分析效率和准确率都相对较低 。 ②命名实体表达形式多样 ;③数量巨大,难以全部写入词典;④ 现已有大量基于 HMM 的信息抽取的相关研究工作fl1。 实体嵌套 。难以识别等。 (2)最大嫡马尔科夫模型(MaximumEntropyMa~ovModel, 1.2实体关系抽取(EntityRelationExtraction.ERE1 MEMM) ERE是确定实体之间的关系 .实体关系有隐含关系和明确 MEMM在用有限知识预测未知假设时.应选取符合这些知 关系。研究难点在:①标注语料难以获取:②隐含实体关系

文档评论(0)

sdfgrt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档