数据基础设施.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据基础设施.ppt

全面数字化和全面开放 目前我国的科技期刊,绝大多数都作到了分散数字化出版,电子文本提交给CNKI、万方、维普等大型数据库 不少期刊已建立自己的网站 中国科技核心期刊1800多种有自建网站的占59% 中国大陆学术期刊有自建网的占49% 国际学术期刊有自建网的占73% 2001年以来国际上兴起的开放获取运动,在很大程度上促进了期刊的数字化和开放 现在美国所有的公共资助的科学文献必须在线开放于PubMed Central中心知识库 欧洲发达国家也纷纷跟进 瑞典LUND大学的开放获取期刊目录DOAJ,收录期刊数已经超过7100种 数据与文献的融合 文献数据处于塔尖;基础层是大量的原始数据,中间层是抽取出来的和关联的数据层 三部分在数据场中相互融合,共同有机地构成了全部科学研究的内容整体 所谓融合:在构建的数据平台上你可以读一篇论文,而同时调取它的原始数据;你甚至可以重演作者的分析过程;或者你能够在分析一些数据的同时找出跟数据相关的全部文献 Entrez, 是一个生命科学搜索引擎 它真正实现了数据和文献的交互性操作 用户可以边阅读一篇文章,同时打开基因数据,跟随基因找到这个疾病,然后又回到文章.它确实非常棒! 微软的WWT,也实行了数据与文献的融合 融合和交互操作可通过统一的链接、统一的标签和ID号而实现 把全世界的数据都集成在一起,形成巨型的动态数据集 一个全球化的数据库将必然诞生 文献内容结构化 (1)自动化标引 标引工作在计算机数据处理中属于语义服务 由语义服务指导数据工作者提炼数据 利用自动工具在文本和数据库中形成语义层通道 为数据的处理分析和整合提供有效的解决途径 英国皇家化学学会 Royal Society of Chemistry’s journal Molecular BioSystems 对HTML格式的全文内有关主题词进行标注 把这些标注的词汇链接到外部数据库词目 借助自动化文本挖掘工具的协助 出版环节的标引是出版增值服务的体现 (2)先进的文本分析技术 先进的文本分析技术,侧重于提高文本的机器易读性 用文本分析技术从文献中抽取实体(entity)和实体之间的关系(entity relation) 利用机器定义和识别的语词,嵌入文献中,使文献能够用机器来分析 让机器去寻找不同学科的文献之间的关联点,从而串联知识点,触发新视野的产生 美国的一些研究项目鼓励学者们在出版论文时就发布实体或实体关系信息,以尽量减少后加工过程 基于网络和数据场的学术过程记忆 在数据密集型科研环境下,引文索引和评价将不再起主导作用 数据场中信息的类型、来源渠道和获取方式都是多元的 各种数据的流动、交互操作、融合、引用等都将留下轨迹 在网络中记载和显现这种过程 使学术过程以机读信息发布于英特网,称为“过程公开记忆” 把隐性的数据流动转变为显性的,甚至可视化 基于网络和数据场的学术过程记忆将在学术跟踪和评价中大显身手 时代的呼声:让所有的科学文献都在线 所有的科学数据都在线 实现交互操作 期刊的走向:全面数字化 推进结构化 与数据基础设施融合 最大限度实行开放获取 李若溪 重庆师范大学编辑出版中心 国家社科基金、教育部人文社科基金课题组 lrx@cqnu.edu.cn 数字化、网络化引发了信息爆炸、数据爆炸 信息、数据爆炸导致了科学研究的模式变化 “数据密集型”科学研究——指当今科学研究越来越依赖于数据的聚集和分析,特别是海量数据分析 无处不在的数据环境——数据场(data space) 科学研究的模式发生着转变,科技期刊也随之转变 数据爆炸和应运而生的数据处理技术,使科学走到了“数据密集型”研究范式 Jim Gray 计算机科学家 微软研究院 图灵奖获得者 The fourth paradigm: data-intensive scientific discovery USA: Microsoft Research 2009 科学研究由假设驱动转向基于探索的科学方法 过去设问“我应该设计什么样的实验来验证这个假设?” 现在设问“从这些数据中我能够看到什么?” “如果把其他领域的数据溶合进来,能够发现什么?” 天文学研究不再用肉眼看望远镜,而是把望远镜观察到的现象以数据形式记录到计算机,对数据进行分析判断 大型天文观察望远镜LSST Large Synoptic Survey Telescope 投入运行后第一年 生产的数据达

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档