常用大数据术语一览表

2016/9/1 0:00:00       来源:        作者:来源:51CTO,作者:布加迪编译       浏览量:  1


常用大数据术语一览表


大数据有许多新术语,有时不好理解。因此,我们列出了一份大数据术语表,以便大家深入了解。当然,这份大数据术语表并不是百分之分全面,要是你认为遗漏了什么术语,请告知我们。
A
聚合-搜索、收集和显示数据的过程。
算法-可以对数据执行某种分析的数学公式。
分析―发现数据蕴含的洞察力。
异常检测-搜索数据集中与预测模式或预期行为不匹配的数据项。异常又叫outlier、exception、surprise或 contaminant,它们常常提供了关键的、可付诸行动的信息。
匿名化-使数据匿名,即移除可能表明个人身份的所有数据点。
应用程序-让计算机能够执行某项任务的计算机软件。
人工智能-研发智能机器和软件,它们能够感知周围环境,并且在需要时采取相应的动作,甚至从那些动作中学习。
B
行为分析-这种分析可以表明如何、为何和什么,而不是仅仅表明是谁和何时。它可分析数据中的人性化模式。
大数据科学家-能够开发解读大数据的算法的人。
大数据初创公司―开发新颖大数据技术的新兴公司。
生物特征识别-根据人的生物特征来识别人的身份。
波字节(BB)-约等于1000尧字节,相当于未来数字化宇宙的大小。1波字节有27个0!
商业智能-让数据易于理解的一套理论、方法和过程。
C
分类分析-从数据获取重要相关信息的系统化过程,又叫元数据,即描述数据的数据。
云计算-网络上用于异地存储数据的分布式计算系统。
聚类分析-识别彼此相似的对象并聚集成类的过程,以便了解数据里面的相似之处和不同之处。
冷数据存储-将很少使用的旧数据存储在低功耗服务器上。检索数据耗时较长。
对比分析-它确保采用逐步的比较和计算过程,以便发现非常大的数据集里面的模式。
复杂的结构化数据-由两个或多个复杂的关联部分组成的数据,它们不容易被结构化查询语言和工具来解析。
计算机生成的数据-计算机生成的数据,比如日志文件。
并发-同时运行或执行多个任务或进程。
关联分析-分析数据,以便确定变量之间的关系,确定这种关系是负关系(-1.00)还是正关系(+1.00)。
客户关系管理(CRM)-管理销售和业务流程,大数据会影响CRM策略。
D
仪表板-使用图形化显示算法执行的分析的工具。
数据聚合工具-将分散于众多数据源的数据转化成单一新数据源的过程。
数据分析员-分析、建模、清理或处理数据的人员。
数据库-数据通过某种技术存储起来的数字化集合。
数据库即服务-托管在云端的数据库,按使用量付费,比如亚马逊网络服务(AWS)。
数据库管理系统(DBMS)-收集和存储数据,并提供数据访问。
数据中心-放置用来存储数据的服务器的实际场地。
数据清洗-审查和修订数据的过程,以便删除重复数据、纠正错误,并提供一致性。
数据管理员-负责数据存储所需技术环境的人员。
数据道德准则-帮助企业组织在数据方面做到透明的准则,确保简洁性、安全性和隐私性。
数据源-一种数据流,比如推特数据源或RSS。
数据市场-进行数据集买卖的在线环境。
数据挖掘-从数据集中找到某些模式或信息的过程。
数据建模-使用数据建模技术来分析数据对象,从数据获得洞察力。
数据集-数据集合。
数据虚拟化-数据整合过程,以便获得更多的洞察力。它通常涉及数据库、应用程序、文件系统、网站和大数据技术等等。
去身份识别-跟匿名化一样;确保无法通过数据来识别人员身份。
判别分析-对数据分类;将数据分成不同的群组或类别。数据中的某些群组或聚类事先已知的情况下使用统计分析,利用该信息生成分类规则。
分布式文件系统-提供一种简化的、高可用的方法来存储、分析和处理数据的系统。
文件存储数据库-一种为了存储、管理和检索文档而专门设计的一种面向文档的数据库,又叫半结构化数据。
E
探索性分析-不用标准的程序或方法,找到数据里面的模式。这是发现数据、找到数据集主要特点的一种方法。
艾字节(EB)-约等于1000拍字节或10亿吉字节。如今全球每天生成的新信息量约为1艾字节。
提取、转换和加载(ETL)-这是数据库和数据仓库的一种方法,从各个数据源提取数据,转换数据,以适合业务运营要求,最后加载到数据库。
F
故障切换-万一某个服务器或节点发生故障,自动切换到另一个不同的服务器或节点。
容错设计-即便某些部件发生故障,也能继续正常运行的特别设计的系统。
G
游戏化-在非游戏环境下使用游戏元素;它对于生成数据非常有用,因而被称为是友好地搜索大数据。
图形数据库-使用图形结构(比如一组有限的有序对或某些实体),使用边缘、属性和节点用于数据存储。它提供了无索引的相邻性,这意味着每个元素与相邻元素直接联系起来。
网格计算-常常通过云,将诸多地方的不同计算机系统连接起来,以实现某个共同的目标。
H
Hadoop-为了能够跨分布式文件系统处理和存储大数据而构建的一种开源框架。
HBase-这是与Hadoop一起运行的开源非关系型分布式数据库。
HDFS-H