- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语义计算—基于语义词典 语义词典方法的缺点: (1)对于很多语言并没有好用的语义词典 (2)有些词不被语义词典包含,例如实体、新词等 (3)大部分方法依赖于上下位层次关系:这限于名词,对于形容词和动词并不完善 精品 精品 移动生活与新媒体实验室 精品 徐源 北京邮电大学 知识库构建与应用 精品 目录 语义信息抽取 知识库 语义检索 海量数据处理 精品 语义信息抽取 泛网资源与信息 语义抽取内容 模式抽取 层级构建 精品 语义信息抽取——海量资源与信息 泛在网为我们提供了无所不在的资源及信息。 如何在海量信息中获取我们需要的信息? 如何快捷的获取?机器理解? 如何让机器更好的理解? 语义抽取 精品 语义信息抽取——语义抽取内容 实体抽取(Named entity extraction) :人物、地点、机构、疾病,等命名或专有实体。 属性抽取(Attribute extraction):实体的自身属性。 关系挖掘(Relation mining):实体之间的关系。 事件挖掘(Event mining):由多个关系元组所构成。 精品 语义信息抽取——实体抽取 识别文本中出现的实体 MUC (1997): Person, Location, Organization, Date/Time/Currency ACE (2005): 100多种更具体的类型 针对不同实体类型与领域考虑不同方法 封闭类(e.g., geographical locations, disease names, gene protein names):人工规则+词典 语法相关(e.g., phone numbers, zip codes):正则表达式 语义相关(e.g., person and company names):综合考虑上下文,句法特征,词典,启发式规则等 精品 语义信息抽取——实体抽取 人工规则方法 某些情况构建简单: 电话号码、邮政编码等。 调试和维护简单 拓展性问题 机器学习方法 当容易构建大量训练数据时适合采用 能够捕捉复杂的模板 主要方法:Naive Bayes;Hidden Markov Models;Maximum Entropy Markov Models;Conditional Random Fields (CRF) 精品 语义信息抽取——属性抽取 属性包括: 属性名 属性值 精品 语义信息抽取——属性抽取 精品 语义信息抽取——属性抽取 基于无结构化 与前面方法类似 模板改变: A of I—A of I is V; V is A of I 种子改变: (China, capital)—(China, capital, Beijing) 基于Wikipedia Infobox 基于HTML表格 精品 语义信息抽取——关系抽取 ACE(Automatic Content Extraction)会议将关系抽取任务表述为:探测和识别文档中特定类型的关系,并对这些抽取出的关系进行规范化表示。 一个比较完整的关系抽取系统应包括依次相连的5个模块:NLP处理和实体抽取、模式匹配或分类、共指消解、新关系处理以及规范化输出。 关系抽取的困难可以归纳为3个方面: 特定领域标引数据集的获取 模式的获取 共指消解 精品 语义信息抽取——关系抽取 基于模式匹配的关系抽取 先构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。 基于词典驱动的关系抽取 基于词典驱动的关系抽取方法非常灵活,新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。 基于机器学习的关系抽取 将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类器,然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法 。 混合抽取方法 基于词汇:“company ?located ?in ?location” 基于句法结构:“((Obj company) (Verb located) (*) (Subj location))” 机器学习方法 有监督学习:基于人工标注数据训练模型(SVM, MaxEnt, KNN等) 1. 基于特征的方法 2. 核方法
原创力文档


文档评论(0)