网站大量收购独家精品文档,联系QQ:2885784924

《毕业设计:HotData自动抽取模块的分析与设计》.doc

《毕业设计:HotData自动抽取模块的分析与设计》.doc

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类号 密 级 U D C 编 号1 0 4 8 6 武汉大学 硕士学位论文 (论文题目与上一行间隔为25毫米)(以上二行用宋体标2号字) HotData自动抽取模块的分析与设计 : 指导教师姓名、职称: : : (以上四项用宋体标4号字) (此处间隔为25毫米) 年 月 日 (年月日用黑体标3号字) (地脚留出25毫米空白边缘) 为了加强学风、学术道德建设,规范学术行为,提高学位论文质量,确保学位授予的权威性、严肃性,学校对学位论文撰写作如下补充规定: 一、凡申请学位人员须对自己的学位论文负责,在提交的学位论文的英文题目后页(中文摘要前页)增设一页书面声明,内容如下: 郑 重 声 明 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为,否则,本人愿意承担由此而产生的法律责任和法律后果,特此郑重声明。 学位论文作者(签名): 年 月 日 摘要 Abstract 目录 引言 随着生物医学研究技术的进步,高通量实验产生了大规模有意义的数据。在学术期刊以文献形式公布研究成果时,需要通过不同的途径来公布这些数据,其中文献的附加数据(Supplementary Data),也称作补充材料(Supplementary Material),是最普遍的方式。附加数据以电子格式发布在期刊网站的文献归档中,其数据内容和数据描述是进行统计分析和文本挖掘的重要数据源。充分有效的利用这些资源,进行研究实验以促进生物学和生物信息学的发展,显得非常必要。然而,附加数据在国际上尚未引起关注,相关研究也处于空白阶段。 为了对附加数据进行系统研究,上海生物信息技术研究中心根据其特点,提出了HotData(热点数据)的概念,它的含义为:由生物医学期刊以电子格式在网站上发布,作为科技文献内容的补充说明,且访问时间具有一定限制(Hot)的附加数据(Data)。此概念着重强调了附加数据的访问时间限制性,因此数据的收集整理成为亟待解决的问题。 本文总结了HotData的发布规律及数据形式,它的分散性、多样性以及时间限制等特点,向传统的自动抽取技术提出了挑战。不过,通过利用HotData的层次性、标记语言以及关键词等优势,能够将期刊之间的差异逐渐缩小,以一套通用的方案解决自动抽取问题,最终采用Eclipse为开发平台,Java技术为工具,开发出HotData自动抽取模块,即HotData Spider软件。 HotData Spider是以抽取、转换和加载HotData为目的而设计开发的软件,它应用数据仓库技术中常用的ETL工具成功解决了HotData的收集整理问题,主要步骤包括:⑴ 数据抽取(Extraction):解决HotData与HotData信息的获取问题;实现HotData URL的解析、文摘信息的获取和HotData的下载等功能。⑵ 数据转换(Transformation):解决HotData与HotData信息形式混乱的问题;实现工程目录结构化管理、HotData信息标准化、URL分级管理以及用户筛选URL列表等功能,与抽取部分结合紧密。⑶ 数据加载(Loading):为以后HotData导入主题数据库提供桥梁;实现当前工程导出的功能。 由于期刊网站具有形式多样、改版修正和多层连接等特点,若仅依靠计算机程序的判断,则难以保证抽取的正确性。因此,HotData Spider实现了“半自动抽取”,为用户提供交互式的操作界面,引入人工干预技术来辅助程序筛选HotData URL列表,进行下载控制。目前,已实现了对15本国际知名期刊HotData的半自动抽取,通过了368个测试案例,软件性能稳定。 HotData Spider采用工程(Project)管理的方式将所有查询、浏览、筛选、下载等操作以工程项目的形式串联在一起,进行规范化管理。软件支持HotData查询、文摘信息浏览、数据页面预览、数据URL筛选、用户下载控制、HotData编辑以及当前工程导出等功能。 HotData Spider是ETL工具在生物医学领域的成功应用。然而,仅仅实现15本期刊的下载是远远不够的,HotData Spider为期刊提供了通用接口,有着很强的发展潜力。首先,可以扩增期刊的数目,为HotData主题数据库提供更多的资源;其次,数据内容和数据描述是进行统计分析和文本挖掘的重要资源,若能根据这两个方面的研究成果,扩充HotData Spider的功能,使其成为具有自动分类和文本挖掘功能的综合软件,就可以为其它基因、蛋白质数据库内的数据进行注释。最后,以上述技术为背景,可逐步实现包含分类系统(类似于PubMed的MeSH分类系统)的HotDat

文档评论(0)

189****3564 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档