#读书,我们是认真的[超话]#
数据智慧子的特征(四·1)
第四、数据智慧子的属性多维
数据智慧子(数据)的概念是对人类智慧知识世界的智慧子中数据部分的统称,通常以数据集的形式存储、使用,其中的每个数据实体(形式可以是数字、字符、图像、视频等)在数据分析中通常被称为数据元素或数据点,是由多个属性(或称特征、变量)来描述的,且一个属性就是一个维度,即数据智慧子含有多个维度的数据项。
具有一组(m)相同属性的一组(n)数据元素常常被组成n*m维数据矩阵,就是数据集,在使用中也常简称为数据。比如数据元素是一本书,通常的属性就有标题、作者、书号、页数、版本等等多个属性来描述。属性的个数就是也就是数据的维数,并且不像我们所在的时空世界具有三维空间,而是我们很难想象的多维状态,因此说数据智慧子是属性多维。
在数据科学里,有两条主线:数据收集和数据分析。现在数据收集存储方式有关系数据和非关系数据,但都离不开数据属性(或称特征、变量)。定义关系数据库的国际标准SQL(结构化查询语言),就是“将数据存储在二维表中,每行代表一个数据实体,而每列代表一个属性。”大数据时代的来临,催生了新一代“NoSQL数据库”,即非关系数据库,使用的是对象标记语言,也就是“将数据存储为具有属性的对象”。所以说,数据库中不管何种类型的数据,都是包含多维属性。
在数据分析中,对于不超过3个属性的人类比较擅长,比如经典时空中的三维空间(长、宽、高),可想象、可视图,但对于超过三个属性的数据智慧子,人类思维处理的能力就比较有限了,于是1997年由统计学演变而来的数据科学应运而生,2001年数据科学的概念因远超统计学而被重新定义,成为了一个新学科。
如图灵奖得主约瑟夫·希发基思(Joseph Sifakis)的著作《理解和改变世界》中所述:“计算机显然可以帮助人类扩展智力。就其本质而言,它们可以分析大量数据,扮演着类似于人类潜意识,即‘协同处理器’的角色。”人们借助数据科学能够分析处理有3个以上,成百上千,甚至是能分析处理有上百万个属性的数据智慧子。所以,属性对于数据来说,是至关重要的,每个数据元素通常由多个属性来描述,也就是说,数据智慧子的属性多维。
#超话宝藏书单##超话创作官##阳光信用##我的成长纪念##记录春日浪漫# http://t.cn/A6HAupw2
发布于 山东
