HotData自动抽取模块的分析与设计.doc

下载文档 降价啦

1
0
约3.2万字
约 56页
2017-08-18 发布于重庆
举报
版权申诉
保障服务

HotData自动抽取模块的分析与设计.doc

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

HotData自动抽取模块的分析与设计 [摘要] 本文探讨了如何对生物医学学术期刊网站的附加数据库进行半自动化抽取。文章以17本国际知名生物医学期刊作为分析对象，确认了学术期刊网站附加数据抽取的必要性和可行性。并提出了这些期刊网站附加数据的关键字段及组合规律，逐步讨论如何将网站附加数据抽取到本地的过程。 [关键词] HotData、ETL、生物医药文献、附加数据、自动抽取 HotData automatic extraction module Analysis and Design [Abstract] This paper discussed how to semi-automatically sample additional data from professional academic periodical websites. The paper analyzed 17 international well-known biomedical periodicals. The necessity and possibility of sampling additional data from academic periodical websites was confirmed. And proposed the keywords and combination rules of additional data from these periodical websites. Gradually discussed the process of how to sample additional data from websites to the local computers. [Key words] HotData、ETL、Biomedical-Literature、Supplementary-Data、Data-Description 引言随着生物医学研究技术的进步，高通量实验产生了大规模有意义的数据。在学术期刊以文献形式公布研究成果时，需要通过不同的途径来公布这些数据，其中文献的附加数据（Supplementary Data），也称作补充材料（Supplementary Material），是最普遍的方式。附加数据以电子格式发布在期刊网站的文献归档中，其数据内容和数据描述是进行统计分析和文本挖掘的重要数据源。充分有效的利用这些资源，进行研究实验以促进生物学和生物信息学的发展，显得非常必要。然而，附加数据在国际上尚未引起关注，相关研究也处于空白阶段[12]。为了对附加数据进行系统研究，上海生物信息技术研究中心根据其特点，提出了HotData（热点数据）的概念，它的含义为：由生物医学期刊以电子格式在网站上发布，作为科技文献内容的补充说明，且访问时间具有一定限制（Hot）的附加数据（Data）。此概念着重强调了附加数据的访问时间限制性，因此数据的收集整理成为亟待解决的问题。本文总结了HotData的发布规律及数据形式，它的分散性、多样性以及时间限制等特点，向传统的自动抽取技术提出了挑战。不过，通过利用HotData的层次性、标记语言以及关键词等优势，能够将期刊之间的差异逐渐缩小，以一套通用的方案解决自动抽取问题，最终采用Eclipse为开发平台，Java技术为工具，开发出HotData自动抽取模块，即HotData Spider软件。 HotData Spider是以抽取、转换和加载HotData为目的而设计开发的软件，它应用数据仓库技术中常用的ETL工具成功解决了HotData的收集整理问题，主要步骤包括：⑴ 数据抽取（Extraction）：解决HotData与HotData信息的获取问题；实现HotData URL的解析、文摘信息的获取和HotData的下载等功能。⑵ 数据转换（Transformation）：解决HotData与HotData信息形式混乱的问题；实现工程目录结构化管理、HotData信息标准化、URL分级管理以及用户筛选URL列表等功能，与抽取部分结合紧密。⑶ 数据加载（Loading）：为以后HotData导入主题数据库提供桥梁；实现当前工程导出的功能。由于期刊网站具有形式多样、改版修正和多层连接等特点，若仅依靠计算机程序的判断，则难以保证抽取的正确性。因此，HotData Spider实现了“半自动抽取”，为用户提供交互式的操作界面，引入人工干预技术来辅助程序筛选HotData URL列表，进行下载控制。目前，已实现了对15本国际知名期刊HotData的半自动抽取，通过了368个测试案例，软件性能稳定。 HotData Spider采用工程（Project）管理的方式将所有查询