- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据与数据挖掘的相对绝对关系
数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当 NSA 为了从其海量数
据中 挖掘“ ”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理
价格。
麻省理工学院的研究者约翰 ·古塔格( John Guttag )和柯林 斯塔尔兹(· Collin Stultz )创建了一个
计算机模型来分析之心脏病病患丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中
筛选,发现心电图中出现三类异常者 —— 一年内死于第二次心脏病发作的机率比未出现者高一至
二倍。这种新方法能够识别出更多的,无法通过现有的风险筛查被探查出的高危病人。
数据挖掘这一术语含义广泛,指代一些通常由软件实现的机制,目的是从巨量数据中提取出信息。
数据挖掘往往又被称作算法。
威斯康星探索学院主任大卫 ·克拉考尔( David Krakauer )说,数据量的增长 —— 以及提取信息的能
力的提高 —— 也在影响着科学。 计算机的处理能力和存储空间在呈指数增长,成本却在指数级下降“
。从这个意义上来讲,很多科学研究如今也遵循摩尔定律。 ”
在 2005 年,一块 1T B 的硬盘价格大约为 1,000 美元, 但是现在一枚不到“ 100 美元的 U盘就有那么大
的容量。 ”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论 之所以发生是因为我们“
正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。 ”克拉劳尔说。
随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长
的商业影响也在如下时刻表现出来:
◆你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息
◆你观赏的电影采用了以几十万 G数据为基础的计算机图形图像技术
◆你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润
◆用算法预测人们购票需求,航空公司以不可预知的方式调整价格
◆智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息
互联网上的火眼金睛
当医学家忙于应对癌症、细菌和病毒之时,互联网上的政治言论已呈燎原之势。整个推特圈上每天
要出现超过 5 亿条推文,其政治影响力与日俱增,使廉洁政府团体面临着数据挖掘技术带来的巨大
挑战。
印第安纳大学 Truthy (意:可信)项目的目标是从这种每日的信息泛滥中发掘出深层意义,博士后
研究员埃米利奥 ·费拉拉( Emilio Ferrara )说。 “Truthy是一种能让研究者研究推特上信息扩散的
工具。通过识别关键词以及追踪在线用户的活动,我们研究正在进行的讨论。 ”
Truthy 是由印第安纳研究者菲尔 ·孟泽( Fil Menczer )和亚力桑德罗 ·弗拉米尼( Alessandro
Flammini )开发的。每一天,该项目的计算机过滤多达 5千万条推文,试图找出其中蕴含的模式。
Truthy 是由印第安纳研究者菲尔 ·孟泽( Fil Menczer )和亚力桑德罗 ·弗拉米尼( Alessandro
Flammini )开发的。每一天,该项目的计算机过滤多达 5千万条推文,试图找出其中蕴含的模式。
大数据盯着 “#bigdata (意为大数据)。这些是在推特上发布过” “bigdata的用户之间的连接,用户”
图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及,绿线表示一个用户是另一个的粉丝
。
一个主要的兴趣点是 水军“ ”,费拉拉说:协调一致的造势运动本应来自草根阶层,但实际上是由 热“
衷传播虚假信息的个人和组织 ”发起的。
2012 年美国大选期间,一系列推文声称共和党总统候选人米特 ·罗姆尼( Mitt Romney )在脸谱网上
获得了可疑的大批粉丝。 调查者发现共和党人和民主党人皆与此事无关。“
文档评论(0)