- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要信息抽取(Information
摘要
信息抽取(Information Extraction)的核心在于识别和提取文档中用户感兴趣 的数据,并以更为结构化、语义更为清晰的形式表示,为用户查询数据、应用程 序利用数据提供便利。近年来国内外已有多位研究者面向各个领域开展信息抽取 研究并获得一定成效。
介于日益严峻的环境问题对生态和生物研究提出了更高、更紧迫的要求。本 文选用生物多样性作为研究领域。物种描述是生物学和生态学的起点,相关文档 应为首要进行信息组织和利用的对象。然而分类学描述通常采用自然语言,内容 缺乏一致性,难以得到有效地利用。为完善生物学和生态学研究的支持基础,已
有多个机构及研究者试图传统格式的分类描述文本转化成新的数字格式(ⅫⅡ
或RDF),试图为基于语义的信息组织和利用奠定基础。其中cui等设计开发的 MARTT系统实现了良好的标注效果,其自行构建的先导词算法,在标注准确率 和召回率上都优于其它两种常用机器学习方法,即支持向量机和朴素贝叶斯。
本文通过深入研究MARTT的系统原理,和自建的机器学习算法,选用中国 植物志中的物种分类学描述为数据集,设计实现了针对生物多样性中文文档的语 义标注系统。文章主要包含了五个部分的内容:
(1)数据集的获取与XML标引,本文设计了植物分类学描述的ⅫⅡ标引
结构,并将收集的PDF格式的描述文档进行格式转换和XIVff.,标引。
(2)中文分词软件的选用,本文通过对比不同中文分词软件的分词效果, 选用最合适研究中语词切分的相关软件。
(3)标注算法的构建。本文设计实现了适用于中文植物分类学文档的机器
学习算法,用于实现语义标注。
(4)对比研究平台的搭建。本文采用LIBSVM软件包,运用支持向量机算
法对文档进行了分类测试。
(5)标注效果的评估。本文将数据集合区分为训练集合和测试集合,运用 从训练集合获知的标注规则对测试集合进行标注。通过标注准确率对标注结果进 行评估。评估结果显示,系统基本完成了对描述文档主要结构的标注,对个别元
I
素的标注结果还有待改善,且总体优于SVM文本分类系统所产生的标注结果。本文将基于机器学习的语义标注应用于植物分类学文档是十分有意义的。首
素的标注结果还有待改善,且总体优于SVM文本分类系统所产生的标注结果。
本文将基于机器学习的语义标注应用于植物分类学文档是十分有意义的。首 先选用《中国植物志》作为数据集来源具有较强的现实意义和潜在的应用价值, 其次语义标注为基于语义的信息组织与利用研究的基础和核心内容,语义标注工 作完成后,能够在此基础上开展XML结构化检索、联合搜索等信息创新用法。 最后,该项工作对生物学和生态学研究起到一定的支持作用,对于其他领域相关 研究的开展也具有极其现实的借鉴价值。
本文初步地对系统的几个重要部分进行了介绍并提出了解决问题的方法,并 对各部分进行了实现。研究还需在数据集合的丰富、标引工作的简化、标引结构 的优化、系统的通用性实现等方面做更多的工作。
关键词:机器学习,生物多样性,信息抽取,中文文档
Ⅱ
ABSTRACTThe
ABSTRACT
The core of information extraction iS tO identify and extract the data from documents users are interested in,and then tO present with a more structured form which can facilitate the query and use of data.In recent years,many researchers both at home and abroad started the study of information extraction in various areas and achieved some Success.
Increasingly serious environmental problems have put forward higher requirements for ecological and biological lesearch,so the study selected biological diversity as the research field.Species description is the starting point of biology and
ecology.The relevant documentation should be the primary object tO information
organization and use.How
您可能关注的文档
- 架空输电线路大风灾害预警方法分析-电气工程专业论文.docx
- 基于机器嗅觉的中华绒螯蟹新鲜度检测技术研究-控制科学与工程专业论文.docx
- 基于混合策略的光伏MPPT算法优化控制-农业工程;农业电气化与自动化专业论文.docx
- 架空输电线路风偏在线监测系统的分析-物理电子学专业论文.docx
- 基于混合策略的汉藏机器翻译系统的构建方法研究-计算机应用技术专业论文.docx
- 架空输电线路风偏在线监测系统的研究-物理电子学专业论文.docx
- 基于机器学习的Femtocell信道频谱与功率资源分配算法的研究-电子与通信工程专业论文.docx
- 基于混合车型公交运营评价与时刻表的优化研究-交通运输工程专业论文.docx
- 架空输电线路工程施工安全风险预警研究-管理科学与工程专业论文.docx
- 基于机器学习的microRNA基因预测-计算机应用技术专业论文.docx
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
最近下载
- 第3部分+现代文阅读第3课时 品评语言特点,鉴赏写作技巧课件-2025年中考语文(广东)一轮复习.pptx VIP
- 中国共产党纪律处分条例学习测试题库.doc VIP
- 第3部分+现代文阅读掌握阅读策略+课件-2025年中考语文(广东)一轮复习.pptx VIP
- (2025春新版本)人音版音乐一年级下册全册教学设计.pdf
- 〖GB50011-2016〗建筑抗震设计规范(2016年版).docx
- 太阳能路灯技术参数.pdf
- 高考英语核心单词.docx VIP
- 2024年住宅小区物业服务合同.docx VIP
- 七年级数学下册 第10章 单元测试卷(冀教河北版 2025年春).pdf VIP
- 六年级语文下册第四单元--习作-心愿课件.pptx VIP
文档评论(0)