- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于有指导的音乐实关系抽取
基于有指导的音乐实体关系抽取 学 生:王莉峰 指导老师:秦 兵 老师 日 期:2009-6-7 * 提纲 课题简介 主要研究内容 研究方法和实施方案 下一步工作 * 提纲 课题简介 什么是信息抽取? 什么是音乐实体类型? 什么是音乐实体关系抽取? 为什么选择音乐领域? 主要研究内容 研究方法和实施方案 下一步工作 * 位置 关系 知识数据库 吉林大学坐落在北国春城 -长春市,它创立于1946年,前身为东北行政学院,是教育部直属的一所全国重点综合性大学。 吉林大学坐落在北国春城 -长春市,它创立于1946年,前身为东北行政学院,是教育部直属的一所全国重点综合性大学。 ID Subsidiary Org Time Place 1 吉林大学 教育部 1946年 长春市 … … … … … … … 关系表 … … … 信息抽取:将非结构化文本转换成 结构化数据,主要包括 实体识别、关系抽取、 共指消解等 吉林大学 它 东北行政学院 北国春城 长春市 1946年 机构成立时间 教育部 附属关系 * 问答系统 智能化搜索 信息抽取 细粒度挖掘 面向IR的NLP: (分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等) 用户 文档 理解文档 抽取信息 理解语言 理解用户 智能交互 垂直搜索 精准化搜索 互联网 基于NLP的IR 结构化数据 提问、log 答案 采集信息 结构化数据 非结构化数据 * 什么是音乐实体类型? 命名实体(Named Entity, NE) 实体名:人名、地名、机构名、专有名词、时间等 例子:在2008年11月7日吉林大学召开的全校干部大会上,任命原山东大学校长展涛为吉林大学校长。 音乐命名实体(Music Named Entity, MNE) 艺术家名、艺术家别名、歌曲名、专辑名、唱片公司名、时间 例子:亚洲天王周杰伦发行第六张国语专辑《十一月的萧邦》,新专辑包含了《夜曲》、《发如雪》等十二首动听的歌,大家可以在专辑当中,嗅出周董潜藏的浪漫古典因子。 * 什么是音乐实体关系抽取? 在音乐实体识别的基础上,判断一个句子中任意两个实体是否属于我们预先定义好的某种关系。 例子:08年12月,蔡依林3000万改签华纳唱片。 * 为什么选择音乐领域? 通用域的难点 没有完善的关系类型体系 建立关系类型体系困难 关系类型太多 关系如何命名呢? 覆盖面要尽可能全 细化、准确… … 领域收缩:乐坛、电子产品、教育、体育等 研究方法可移植,也是某种意义上的通用域 * 提纲 课题简介 主要研究内容 研究方法和实施方案 下一步工作 * 主要研究内容 音乐实体关系抽取 特征提取 构建语料库 建立音乐实体关系类型体系 分类模型 训练 基于有指导的学习方法 * 提纲 课题简介 主要研究内容 研究方法和实施方案 语料库建设 特征提取 模型训练 评测 下一步工作 * 语料库建设 来源:新浪音乐新闻(2008.8-2009.3) 处理流程 新闻文本 断句 分词、 词性标注、 音乐实体 识别 句子 句子 句子 … 制定标 注规范、 人工标 注语料 音乐实体 关系抽取 语料库 随机筛选 10000句 作为待标 注语料 * 音乐实体关系抽取技术介绍 训练过程 识别过程 训练数据 (2/3) 测试数据 (1/3) 特征提取 SVM训练/ MaxEnt训练 SVM模型/ MaxEnt模型 SVM分类/ MaxEnt分类 识别结果 语料库 随机筛选 实验数据 * 训练过程-特征提取 输入:训练语料词法句法信息 输出:特征文件 例如:在/p 北京/ns 奥运会/j 开幕式/n 上/nd ,/wp 刘欢/Na 和/c 莎拉布莱曼/Na 共同/d 演绎/v 了/u 主题歌/n 《我和你》/Nc 。/wp 特征提取器 实体1的类型 实体2的类型 实体1和实体2之间的第一个动词 实体1前面的第一个词 实体2后面的第一个词 实体1前面第一个词的词性 实体2后面第一个词的词性 … … class F1 F2 F3 F4 F5 F6 F7 … 艺术家-歌曲 Na Nc 演绎 和 。 c wp … * 训练过程-SVM or MaxEnt 输入:特征文件 输出:分类模型文件 开源的SVM工具包:Libsvm 2.89 .tw/~cjlin/libsvm/ 开源的MaxEnt工具包:OpenNLP.maxent / * 识别过程-特征提取 测试数据特征提取与训练数据特征提取过程类似 区别 特征文件中无类别信息 class F1 F2 F3 F4 F5 F6 F7 … ? Na Nc 演绎 和 。 c wp … * 识别过程-SVM or MaxEnt分类 输入:特征文件 输出:类别编号
文档评论(0)