领域自适应的中文实体关系抽取-新版.pptVIP

  • 2
  • 0
  • 约4.32千字
  • 约 35页
  • 2019-12-22 发布于湖北
  • 举报

领域自适应的中文实体关系抽取-新版.ppt

* bhj oo * bhj oo bhj oo bhj oo bhj oo 领域自适应的中文实体关系抽取研究 导师:秦兵教授 学生:王莉峰 * jgyj 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 * jgyj 问题的提出 现有的关系抽取方法存在一些问题 人工参与较多 预先定义关系类型体系 构建标注语料库 构造关系种子集 可移植性差 集中在特定领域的关系抽取 不适用于海量、多样化的Web信息抽取需求 领域自适应的研究相对滞后 2007年Banko提出了Open IE的概念 领域自适应的中文关系抽取研究较少 * jgyj 解决思路 领域自适应的中文实体关系抽取研究框架 只需一定规模的未标注语料库作为输入 最大程度避免人工参与 提高关系抽取自动化程度 增强可移植性,扩大应用范围 关键技术 关系类型自动发现 关系种子集自动构建 关系描述模式挖掘 关系元组抽取 数据存储及可视化 * jgyj 关系类型体系 实体关系核心网 词法句法分析 命名实体识别 特征词抽取 特征词聚类 基于特征词聚类的关系类型发现 关系实例抽取 上下文模式生成 模式泛化与过滤 基于Bootstrapping的关系描述模式挖掘 模式匹配 关系实例评价 新关系实例抽取 关系类型,模式集 查询构造 查询扩展 基于Web Mining的关系种子集抽取 答案抽取 领域自适应的中文实体关系抽取 存储与可视化 大规模 网页库 实体关系 知识库 Web检索 和问答系统 * 元组抽取与评价 jgyj 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 * jgyj 关系类型发现(1) 语言现象 绝大多数产生关系的实体对均可以由其上下文中的一般动词和一般名词触发描述 统称为特征词(Feature Word,FW) 主要思想 以实体对类型为单位进行处理——领域 如“人名—人名”、“人名—机构名” 基于大规模语料库统计,抽取与特定实体对类型相关度较大的特征词集 利用语义词典计算特征词之间的相似度 特征词聚类,聚类结果即为关系类型 * Arg1 Arg2 Relation 王树国 哈尔滨工业大学 校长 王树国 法国荣誉勋章 荣获 Arg1 Arg2 Relation 刘德华 巩俐 携手 刘德华 《我知女人心》 打造 巩俐 《我知女人心》 打造 《我知女人心》 博纳悠唐国际影城 首映 PER LOC ORG MISC FW 哈尔滨工业大学校长王树国荣获法国荣誉勋章。 巨星刘德华携手巩俐等人气明星打造的都市爱情大片《我知女人心》在博纳悠唐国际影城正式首映。 jgyj 关系类型发现(2) 基于特征词聚类的关系类型发现 * 网页库 正文抽取 文本处理 种子实体 抽取 特征词抽取 特征词聚类 关系类型体系 特征词集 语义词典 jgyj 关系类型发现(3) 特征词抽取 抽取由种子实体形成的高频实体对及其句子集 统计与高频实体对共现的动、名词 使用启发式通用规则过滤,得到候选特征词 必须出现在实体对之间 动词细分类,仅保留一般动词 名词细分类,仅保留一般名词 动词必须满足与实体对中的任一实体存在主谓关系SBV或动宾关系VOB 计算候选特征词与实体对类型相关度,取Top-K * FreqT(wk) 和 FreqA(wk) 分别表示 wk 在特定实体对类型上下文中和整个语料库中的出现频率 jgyj 关系类型发现(4) 特征词聚类 相似度计算 基于HowNet 相同义原个数 基于《同义词词林(扩展版)》 树距离 语义代码是否相同(如level=3、4) 聚类算法 层次聚类 HAC(single link、complete link、average link) Affinity Propagation(AP),Science 2007提出 语义代码直接聚类(只针对语义代码相似度) Ni 和Nj 分别为wi 和wj 义原个数,NCij 为相同义原个数 * jgyj 关系类型发现(5) 语料库获取 RE100W:9个门户网站的100W娱乐资讯网页 实验实体对类型 人名—人名,即人物社会关系抽取 测试数据 多人协作构建标准聚类结果 共1,225个特征词,256类 评价标准 F值 纯度Purity * jgyj 关系类型发现(6) * jgyj * jgyj 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 * jgyj 关系种子集抽取(1) 人工构建关系种子集存在的问题 关系类型繁多,完全依靠人工选择困难 难以保证种子覆盖面 投入成本较大,可移植性差 主要思想 关系表示成三元组: e1,e2,R e1为种子实体,e2未知 R为关系类型,对应一个特征词集合 将e2槽填充问题看作事实型答案抽取问题 利用搜索引擎收集和处理海量数据的能力和优

文档评论(0)

1亿VIP精品文档

相关文档