HotData自动的抽取模块地分析报告报告材料与设计3.doc

下载文档 降价啦

0
0
约3.04万字
约 57页
2018-12-11 发布于安徽
举报
版权申诉
保障服务

HotData自动的抽取模块地分析报告报告材料与设计3.doc

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

HotData自动抽取模块的分析与设计 [摘要] 本文探讨了如何对生物医学学术期刊网站的附加数据库进行半自动化抽取。文章以17本国际知名生物医学期刊作为分析对象，确认了学术期刊网站附加数据抽取的必要性和可行性。并提出了这些期刊网站附加数据的关键字段及组合规律，逐步讨论如何将网站附加数据抽取到本地的过程。 [关键词] HotData、ETL、生物医药文献、附加数据、自动抽取 HotData automatic extraction module Analysis and Design [Abstract] This paper discussed how to semi-automatically sample additional data from professional academic periodical websites. The paper analyzed 17 international well-known biomedical periodicals. The necessity and possibility of sampling additional data from academic periodical websites was confirmed. And proposed the keywords and combination rules of additional data from these periodical websites. Gradually discussed the process of how to sample additional data from websites to the local computers. [Key words] HotData、ETL、Biomedical-Literature、Supplementary-Data、Data-Description 目录第1章绪论 - 1 - 1.1 研究的的目的与意义 - 1 - 1.2 国内外研究进展 - 1 - 1.3 本文主要研究内容 - 1 - 1.4 本文组织结构 - 2 - 第2章 HotData的理论技术基础 - 3 - 2.1 HotData的定义 - 3 - 2.2 HotData的发布规律的分析 - 3 - 第3章自动抽取模块的分析与设计 - 5 - 3.1 需求分析 - 5 - 3.2 ETL在该模块中的应用 - 5 - 3.3 系统流程的设计 - 6 - 第4章 HotData的数据收集工作 - 9 - 4.1 手工下载 - 9 - 4.2自动下载与更新 - 9 - 4.3 数据分类 - 13 - 4.4 数据库设计 - 17 - 4.5 标准制定及附加工具 - 20 - 第5章后期网站功能设计 - 23 - 5.1 查询 - 23 - 5.2 浏览 - 24 - 5.3 结果显示 - 25 - 5.4 历史记录 - 27 - 5.5 用户下载 - 27 - 5.6 在线提交 - 27 - 第6章 HotData Spider的实现 - 31 - 6.1 HotData Spider概述 - 31 - 6.2 开发工具 - 31 - 6.3 软件测试 - 31 - 6.4 运行环境 - 31 - 6.5 HotData Spider工程管理 - 36 - 第7章总结与展望 - 51 - 参考文献 - 52 - 第1章绪论 1.1 研究的的目的与意义随着生物医学研究技术的进步，高通量实验产生了大规模有意义的数据。在学术期刊以文献形式公布研究成果时，需要通过不同的途径来公布这些数据，其中文献的附加数据（Supplementary Data），也称作补充材料（Supplementary Material），是最普遍的方式。附加数据以电子格式发布在期刊网站的文献归档中，其数据内容和数据描述是进行统计分析和文本挖掘的重要数据源。充分有效的利用这些资源，进行研究实验以促进生物学和生物信息学的发展，显得非常必要。然而，附加数据存在于半结构化的网页中，其分散性、多样性以及访问时间限制性，使系统研究面临重重障碍。如何将附加数据与其相关信息抽取出来，转换为统一的格式，并最终加载到主题数据库供用户访问，成为亟待解决的问题。为了对附加数据进行系统研究，上海生物信息技术研究中心根据其特点，提出了HotData[1]（热点数据）的概念，它的含义为：由生物医学期刊以电子文档等多种格式在网站上发布的，并且作为科技文献内容的相关补充说明材料，而且访问时间具有一定限制（Hot）的附加数据（Data）。此概念着重强调了附加数据的访问时间的限制性，因此数据的收集整理成为亟待解