环境科学数据管理.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
环境科学数据管理

网络数据实习报告姓名:马存学号:201528013329020单位:沈阳计算所数据产生的背景在互联网日益发达的环境下,人们上网的成本越来越低,从以前的奢侈品到现在的大众化,只用了短短几年的时间。为了更好地研究人们上网的行为,比如人们在哪个时间段上网更频繁,哪个时间段喜欢发言等等,我将从互联网上某个网站上监测用户的发言信息。由于只是示范性数据,所以数据采集可能不会太多,研究目标也很单一,只是单纯的衡量用户在每个时间段的发言量,并做出图表,也就是数据可视化。总结一下就是:数据采集的目标是衡量一个网站的用户的每个时间段的发言数目。数据采集的对象是网站帖子或者新闻的评论信息,方式是通过编程,由程序下载信息保存到本地或者本地的数据库文件,采集设备只是一台能够上网的计算机,最后下载下来的数据类型是文本数据,其中包括用户名,评论时间,评论内容。数据的生命周期数据的生命周期包括六个阶段:数据创建阶段、数据保护阶段、数据访问阶段、数据迁移阶段、数据归档和数据销毁阶段。由于本项目是一个小项目,其中的数据迁移,归档阶段不是很重要,且项目数据主要从互联网获得,对全部人开放,所以数据销毁阶段也不重要。由于本项目主要是对数据进行分析,所以需要一个数据分析阶段。总结来说,具体如下:数据的采集-----数据的保护----数据的访问-----数据的分析-----结论。概念图模型:工作流图示:质量控制本项目数据最不安全的节点应当是收集数据阶段,因为网页内容繁杂,编写的程序不可能适应每一个网页,使得都能正确返回信息,因此,在第一步获得的数据之后,我们应对数据进行有效的筛选,比如去除异常值,去除空值等等。由于采集的数据庞大,最小的数据规模也应该是几万条数据,大的十万,甚至百万千万,否则较小的数据规模难以对用户的上网习惯分析出正确的结论,因此不可能用手工去检索异常的数据,我们可以借助工具或者编写程序对本地数据进行扫描,剔除异常值和空值。但是,用工具或者程序再次扫描数据会加大项目开发的周期和成本。我认为最好的做法是在采集数据阶段就进行质量控制,也就是在下载数据时实时对数据检测,如果本次数据不合规定则不予下载,直接进行下一次检测,检测通过后下载到本地并保存到数据库中。

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档