- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕设中期
术语关系抽取方法研究 研究生:林鹏 指导教师:郑庆华 教授 2009-11 目录 任务说明 研究内容和重点 研究进展 研究计划 任务描述 术语关系抽取 利用计算机从非结构或半结构的文本中自动的抽取出术语间的语义关系 术语1 术语2 关系 CPU 中央处理单元 同义 CPU 运算器 整体部分 CPU 控制器 整体部分 CPU 寄存器 整体部分 … … … CPU是中央处理单元(Central Process Unit)的缩写,它可以被简称做微处理器。CPU主要由运算器、控制器、寄存器和内部总线等构成。 研究意义 来源: 国家863目标导向类课题:“面向教育的海量知识资源组织、管理与服务系统”(2008AA01Z131) 用于主题图的建立 语义关系抽取很多领域都有重要的应用 语义词典的建立和扩充; 本体(Ontology)库的建立和扩充; 语义网(Semantic Web)标注; 领域知识库的建立和扩充; 自动问答系统 语义关系类型说明 中华人民共和国国家标准 《术语工作原则与方法》 层级关系 上下位关系 整体-部分关系 非层级关系 同义关系 序列关系 联系关系 …… WordNet 同义关系 反义关系 相似关系 上下位关系 整体部分关系 继承关系 因果关系 语义关系类型说明 层级关系 上下位关系 UDP提供了无连接、“不可靠”的数据报服务。 整体部分关系 数据链路层包含2个子层:逻辑链路控制和介质访问控制。 非层级关系 同义关系 报文交换又称为包交换。 研究内容 数据收集和标注 术语关系抽取工作机理和流程框架研究 术语关系抽取任务的特征选择和特征表示方法 试验比较术语关系抽取实现方法的优劣 结合863课题的具体任务,实现针对学科概念的关系抽取系统 研究重点 基于分类的术语关系抽取方法研究 研究问题: 特征选择与表示:那些特征有用,那些无用? 算法选择:众多分类算法,何种有效? 数据平衡性问题:术语关系稀疏,如何解决数据非平衡问题? 研究重点 基于序列标注的术语关系抽取方法研究 序列标注是一类新出现的学习模型,它根据已知观测序列,预测未知的标记序列 缺乏在语义关系抽取领域的应用 问题转化: 研究进展 数据采集和标注 学科:计算机网络计算机组成原理 数据量:39624句,25036句, 术语:33528个 关系:上下位:1879;同义关系:3853;整体部分:1220 研究进展 术语同义关系特征表示方法 研究了术语间同义关系的特征选择和表示方法 初期共选取特征5类37维,包括:术语1特征、术语2特征、左部特征、中部特征、右部特征 用信息增益和增益率特征选择算法分别从中选取出12维有效特征,合并形成一个16维的有效特征集。 特征选择算法 F-Measure 原始特征(37维) 0.814 Cfs (12维) 0.788 InfoGain (12维) 0.829 GainRatio (12维) 0.785 研究进展 基于分类的术语同义关系抽取 在以往的同义关系数据集上,用分类的方法实现了领域术语同义关系的抽取 实验用数据集 Network 正例:972 负例:71442 实验验用数据 正例:202 负例:14798 Economic 正例:80 负例:2621 研究进展 基于分类的术语同义关系抽取 实验用分类方法:SVM、Native Bayes、Decision Tree、 Decision Table 评价指标:单类F-measure 实验结果: ComputerNetWork SVM NB DTree DTable 0.523 0.667 0.814 0.783 Economic SVM NB DTree DTable 0.61 0.928 0.955 0.935 研究进展 术语同义关系抽取工具 在上述实验的基础上,开发了领域术语同义关系抽取工具,作为知识元素抽取模块的一部分,集成进入863项目。 研究计划 完善基于分类的术语关系抽取实验 目前已有同义关系部分的实验结果 需要补充上下位关系、整体部分关系的实验结果 实验方案:3个方向 特征选择 算法比较 数据平衡 研究计划 基于序列标注模型的术语关系抽取研究 将术语关系抽取视作序列标注任务 所用模型:最大熵马尔科夫MEMM或条件随机场CRF 特征选择:词本身、词性、句法分析、术语标注结果 研究计划 实验比较 从算法复杂度、时间效率、准确率、召回率等多个方面比较基于分类的术语关系抽取和基于序列标注的术语关系抽取 术语关系抽取工具实现 在实验基础上,选择实用性、可靠性高的方法,作为术语关系抽取工具的实现 期望在研究中发现更好,更适合术语关系抽取任务的方法 谢谢!
文档评论(0)