- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2010年第4期 福 建 电 脑 55
信息抽取技术研究与探讨
伍守芹 .李晓昀
(1、湖南衡阳广播 电视大学 湖南 衡阳 421001 2、南华大学计算机科学与技术学院 湖南 衡阳 421001)
【摘 要】:对信息抽取技术的发展背景、概念进行 了概述。详细介绍了信息抽取中研究的四个关键技术:命名实体识
别、实体关系抽取、指代消解及事件探测。根据采用模型的不同,对信息抽取进行 了分类介绍,分别指出了各类抽取方法的优
点、缺点及研究难点。最后。对国内外在信息抽取领域中的研究现状及应用状况进行了分析,进一步说明了信息抽取技术的
发展趋势。
关【键词】:信息抽取;自然语言处理;隐马尔科夫模型;最大嫡模型;条件随机场
0、引言 该方法通过对文本中词、词形、语法、语义、篇章和语用 的分
信息抽取 (InformationExtraction。IE)是从给定 自由文本或 析。对文本进行深人理解 .抽取信息。由于所需知识量大,过程复
半结构化文本 中抽取预先指定的实体、关系和事件等事实信息。 杂.效率较低。在处理深度方面,信息抽取与文本理解的深度差
形成具有清晰语义信息的结构化文本 的技术 。结构化文本是根 别较大 :信息抽取只需获取指定文本的片断,进行浅层的 自然语
据预规定格式严格生成 的文本 .布局 良好 .便于存储 、处理及重 言文本处理 :而文本理解则须推测文本作者 的写作 目的,要求的
复利用 自由文本是由合乎某种语言表达规范的自然语言语句 理解层次更深
组成 。表达方式多样 ,较难抽取 。半结构化文本是一种介于 自由 2.2基于统计 的方法
文本与结构化文本之间的文本 。 (1)隐马尔科夫模型(HiddenMa~ovModel,HMM)
l、关键技术 隐马尔科夫过程是一种双重随机过程:①观察事件是依存
1.1命名实体识别NamedEntityRecognition.NER) 于状态的概率函数:②状态转移随机过程。这一程是隐藏着的,
NER是 IE最基本 的任务 .指从文本 中识别 出专有名称和 只有通过生成观察序列 的另外一个概率过程才能 间接地观察
有意义的数量短语 .并加 以归类 的过程 。命名实体狭义上指现实 到。在信息抽取 中.一个 HMM对应于一个模板 ,模型中的各个
世界中具体的或抽象的实体,如人名、组织名、地名;广义上还包 状态对应该模板的各个属性槽。待抽取的标注文本为该模型的
含时间、数字表达式等。NER能提供浅层但关键的语义信息,在 一 种输出结果。这样训练得到的HMM,可通过寻找最佳路径,该
指代消解 、问答系统、信息抽取 、机器翻译 、文本摘要 中应用广 路径上各输 出及其对应的状态即抽取结果 。HMM 易建立、适应
泛 。NER质量直接影响最终抽取质量。国内外在这方面已有大 性好、抽取精度高,有较强可扩充性,只要训练获取合适 的模型
量工作。如在MUC、ACE等会议推动下.英语、日语 的NER成功 参数 .即可对更复杂 的文本类型进行抽取 。HMM应用广泛 ,但要
率 已达到人类专家水平 :而 中文 NER还处于起步阶段。NER有 求大量训练才能获取模型参数 .不能保证获取最佳值 。必要时需
基于规则和基于统计两种方式 .研究难点在:①分类模糊问题 ; 要人工调整 ;另外 ,对于单文本分析效率和准确率都相对较低 。
②命名实体表达形式多样 ;③数量巨大,难以全部写入词典;④ 现已有大量基于 HMM 的信息抽取的相关研究工作fl1。
实体嵌套 。难以识别等。 (2)最大嫡马尔科夫模型(MaximumEntropyMa~ovModel,
1.2实体关系抽取(EntityRelationExtraction.ERE1 MEMM)
ERE是确定实体之间的关系 .实体关系有隐含关系和明确 MEMM在用有限知识预测未知假设时.应选取符合这些知
关系。研究难点在:①标注语料难以获取:②隐含实体关系
您可能关注的文档
最近下载
- 广东省暴雨径流查算图表使用手册.pdf VIP
- 山西吕梁离石贾家沟煤业有限公司岗位职责汇编.doc VIP
- 东营市华凌科技办公楼的设计.doc VIP
- 2023年高考物理试卷(广东)含答案解析.docx VIP
- 2022-2023学年部编版高中语文必修上册2.2《红烛 》教学实录.docx VIP
- 消防安全知识灭火器使用培训教程PPT模板(完整版).pptx VIP
- 燃料采购供货方案,燃油运输方案.docx
- 第2课 树立科学的世界观 课件 中职思想政治高教版哲学与文化.pptx
- 《燃气涡轮发动机》课件.ppt VIP
- 中小学【新教材】2024年秋沪教牛津版英语七年级上册 Unit 1 Section4 课件教育教学资.pptx VIP
文档评论(0)