大数据常见术语解释(全文).doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE13

大数据常见术语解释(全文)

胡经国

大数据(BigData),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的出现产生了许多新术语,这些术语往往比较难以理解。为此,我们根据有关大数据文献编写了本文,供大家认识大数据参考。

1、聚合(Aggregation)

聚合是指搜索、合并、显示数据的过程。

2、算法(Algorithms)

算法是指可以完成某种数据分析的数学公式。

3、分析法(Analytics)

分析法用于发现数据的内在涵义。

4、异常检测(AnomalyDetection)

异常检测用于在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”以外,用来表示“异常”的英文单词还有以下几个:outliers,exceptions,surprises,contaminants。它们通常可提供关键的可执行信息。

5、匿名化(Anonymization)

匿名化使数据匿名,即移除所有与个人隐私相关的数据。

6、应用(Application)

在这里,应用是指实现某种特定功能的计算机软件。

7、人工智能(ArtificialIntelligence)

人工智能是指研发智能机器和智能软件;这些智能设备能够感知周围的环境,并根据要求作出相应的反应,甚至能自我学习。

8、行为分析法(BehaviouralAnalytics)

行为分析法是指根据用户的行为如“怎么做”,“为什么这么做”以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科。它着眼于数据中的人性化模式。

9、大数据科学家(BigDataScientist)

大数据科学家是指能够设计大数据算法使得大数据变得有用的人。

10、大数据创业公司(BigDataStartup)

大数据创业公司是指研发最新大数据技术的新兴公司。

11、生物测定术(Biometrics)

生物测定术是指根据个人的特征进行身份识别。

12、B字节(BB,BrontoBytes)

B字节(BB)约等于1000YB(YottaBytes),相当于未来数字化宇宙的大小。1BB包含了27个0。

13、商业智能(BusinessIntelligence)

商业智能是指一系列理论、方法学和过程,使得数据更容易被理解。

14、分类分析(ClassificationAnalysis)

分类分析是指从数据中获得重要相关性信息的系统化过程;这类数据也被称为元数据(MetaData),即是描述数据的数据。

15、云计算(CloudComputing)

简而言之,云计算是指通过互联网提供智能化计算资源的服务模式或商业模式。提供资源(资源池上的计算能力、存储空间和信息服务)的网络被称为云(或云端),由云按需提供可动态伸缩(可以无限扩展、随时获取、按需使用、按使用付费)的廉价计算服务;计算能力是通过互联网进行传输的。

16、聚类分析(ClusteringAnalysis)

聚类分析是指将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据之间的差异和相似性。

17、冷数据存储(ColdDataStorage)

冷数据存储是指在低功耗服务器上存储那些几乎不被使用的旧数据;这些旧数据检索起来将会很耗时。

18、对比分析(ComparativeAnalysis)

对比分析是指在非常大的数据集中进行模式匹配时,进行一步步的对比和计算从而得到分析结果的过程。

19、复杂结构数据(ComplexStructuredData)

复杂结构数据是指由两个或多个复杂而相互关联的部分组成的数据。这类数据不能简单地用结构化查询语言或工具(SQL)来解析。

20、计算机产生的数据(ComputerGeneratedData)

计算机产生的数据是指如日志文件这类由计算机生成的数据。

21、并发(Concurrency)

并发是指同时执行多个任务或运行多个进程。

22、相关性分析(CorrelationAnalysis)

相关性分析是指一种数据分析方法,用于分析变量之间是否存在正相关或者负相关。

23、客户关系管理(CustomerRelationshipManagement)

客户关系管理(CRM)是指用于管理销售、业务过程的一种技术;大数据将影响公司的客户关系管理的策略。

24、仪表板(Dashboard)

仪表板是指使用算法分析数据,并将结果用图表方式显示于仪表板中。

25、数据聚合工具(DataAggregationTools)

数据聚合工具是指将分散于众多数据源的数据转化成一

文档评论(0)

寒寒 + 关注
实名认证
内容提供者

好文件大家都可以分享

1亿VIP精品文档

相关文档