- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同: 结构化程度 传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易; 大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。 异常数据的处理 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理; 大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。 大数据与传统数据库的区别 大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系。 大数据与其他新兴技术的关系 处理的对象往往是全部数据,而不是部分数据的采样 采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。 不再执迷于精确性 精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外95%的数据。 错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。 大数据的简单算法比小数据的复杂算法更有效。 更加关注相关性,而不是因果性 预测依靠的是相关性。 很多情况下知道“是什么”即可,不必知道“为什么”。 大数据带来的思维方式的变化 大数据的价值链 我们应如何学习大数据知识 机遇 大数据能够为人类带来新的理念、新的价值,推动社会的快速进步,能够让人类发现一些以往未曾发现的潜在关联。 人类应如何对待大数据 风险 个人隐私如何保护 数据垄断、独裁 数据主宰一切 (意料之外:胸部最大的是新疆妹子) 淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。 人类应如何对待大数据 超市预知高中生顾客怀孕 明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。 人类应如何对待大数据 掌控 法律法规的建立 人类的思考 vs 大数据的结论 人类应如何对待大数据 Google、IBM、Amazon、Oracle、Microsoft、EMC等IT行业巨头已经在大数据产业链开始行动,从不同的角度挖掘大数据的价值。 腾讯、百度、新浪、淘宝等国内知名互联网和电商公司也快速加入到大数据队伍中,对已经持有的大数据进行挖掘,以便改善自身的服务。 国内外政府机构对大数据的重视更多在于报告和组织会议上,行动的步伐远远不及企业。 国内外现状 发挥你您的想象力,选择您认为可是的答案 一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证,网站可获得用户真实姓名、年龄、性别、地区等身份证数据,对防止诈骗有一定作用。但如今各家都有,这种传统打法就过气了。毕竟有身份证的人,不一定是有身份的人。婚恋网站已将条条框框的硬指标罗 网易定制爱情 使人几乎怀疑进入的是淘宝。当身高、体重、年龄、学历等等都一一框定,一看还有2000个姑娘(小伙)符合要求,是时候让理性回归感性了。而这感性,又是建立在理性的数据分析之上。 花田界面清新简洁,采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情,展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人,这就促使用户拿出更新微博的劲头来更新花田,为花田积累了大量可供分析的软性数据。 定制爱情 定制爱情 “我们可以通过‘内心独白’来挖掘用户的性格特征。”网易花田负责人夏天宇说。夏天宇在网易已工作11年,此前他的团队负责网易微博的研发,而他最早的工作是Oracle数据库管理。 现在,他和他的团队正试图通过自然语言处理技术和语义分析方法来解码用户性格,实现“软硬兼施”的精准推荐。首先,他们运用切分词方法,从用户的“内心独白”中提取出现频率较高的关键词;再将这些关键词分类,如感性词汇或理性词汇;最后,通过文本分析、语义分析,从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。这一技术目前还在测试中,2013年下半年会逐步投入使用。 定制爱情 定制爱情 自2012年12月28日向全国开放注册以来,花田注册
文档评论(0)