NextGenerationSpaceControlCommunicationXML.pptVIP

  • 2
  • 0
  • 约2.12千字
  • 约 15页
  • 2016-11-23 发布于天津
  • 举报
NextGenerationSpaceControlCommunicationXML.ppt

* LOGO 面向中文网络百科的属性和属性值抽取 汇报人:贾真 2013 . 11 . 18 实验分析 4 主要算法 3 方法概述 2 相关定义 1 报告内容 句子序列 句子序列是由一系列二元组组成的有序序列。 S=(w1, t1), …, (wi, ti), …, (wn, tn),其中,wi表示词语,ti表示wi的词性标注或实体标注。 K元模式 由k个词语、词性标注或实体标注组成的有序序列 Pk=x1, …, xi,…, xk ,其中,xi表示词语、词性标注或实体标注。 置信度 词语(或短语)与命名实体标注之间的关联程度 相关定义 1 实验分析 4 主要算法 3 相关定义 1 方法概述 2 报告内容 对文本进行分词、分句等自然语言预处理 将属性值看做命名实体,通过频繁模式挖掘和关联分析获取属性 采用自扩展方法获取属性触发词 机制 文本预处理 属性抽取 触发词抽取 模式挖掘 利用触发词自动获取模式,基于聚类算法过滤可信度低的模式 属性值抽取 利用模式从文本中抽取属性值 方法概述 2 实验分析 4 相关定义 1 主要算法 3 方法概述 2 报告内容 算法1 k元模式提取算法 输入:k;句子序列集合Sset={S1, S2, ..., Sn};窗口W;词性POS集;命名实体标注集ENE; 输出:k元模式集合Pkset 算法2 词语语义相似

文档评论(0)

1亿VIP精品文档

相关文档