网站大量收购独家精品文档,联系QQ:2885784924

生物数据抽取与更新若干问题研究.pdfVIP

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物数据抽取与更新若干问题研究

生物数据抽取与更新若干问题研究 摘要 【摘要】 近十年来,在世界范围内众多研究机构的推动下,生物数据呈指数级增长。 如何将这些数据整合起来,为生物学家搭建方便而高效的查询分析平台,已成为 计算机界研究的热点。数据集成是实现在线数据查询和分析的有效方法,数据抽 取和更新是数据集成中的两个关键技术。 DE.Wrapper是一种面向复杂数据源的数据抽取程序,它使用扩展正则表达 式(ERE)及其对应的数据抽取树(DE.树)作为数据抽取模型。然而由于生物 数据领域的特殊性,在使用DE.Wmppper进行数据抽取和数据更新时面临着一些 问题,如:ERE的建立太复杂;ERE中可能存在冲突;大量分布的异构生物数 据源使数据更新的实现非常困难等等。本文从元数据的获取和维护的角度出发, 对数据抽取和更新中存在的问题进行了研究,最后给出了系统实现。主要研究成 果如下: (1)研究了ERE中的切分二义性问题,提出了切分二义性的检测和定位算法, 给出了有害的切分二义性和有益的切分二义性的处理方法。 (2)针对生物数据源的多样性、易变性、异构性、分布性等特点,定义了描 述生物数据源的通用元数据模型,并提出了集中式元数据仓储的结构。从而实现 了异构生物数据源的数据更新。 (3)实现了DE.Wrapper的可视化编辑调试环境。该环境首先使用可视化界面 支持EⅪ徊E.树可视化构建,然后自动检查该ERE/DE.树是否具有二义性,最 后在样本数据上运行抽取算法并给出数据库结构和抽取结果,供用户进行评价, 从而逐步引导用户设计出满足要求的ERE/DE.树。 (4)实现了生物数据仓库的增量更新系统。该系统使用本文中定义的元数据 模型和数据仓储结构,保证了生物数据仓库增量更新的通用性和可扩展性。 关键词:数据抽取,数据更新,元数据,DE.Wrapper,ERE,DE.树 中图法分类号:TP311 生物数据抽取与更新若干问题研究 绪论 [Abstract] Inthe lastten the ofthe scientific years,谢tllpromotionmany organization,the has bio—databeen is and to an growingexponentially.Iturgentimportant develop bio-data and to immensebio-data. adequate managinganalyzingsystemintegrate Data isaneffective incluedsdataextractionand integration technology,which data update. isa toextractdata from datasonrce,which DE-Wrapperprogram compound usestheextend the regularexpressions(ERE)as aresomedifficultwhen tocreatedata applyDE—Wrapper integrationsystem

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档