大数据概念是如何产生的,数据信息来源于哪里权威

大数据概念是如何产生的

大数据概念产生过程:大数据的名称来自于未来学家托夫勒所著的《第三次浪潮》,尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。

《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。

从2009年开始“大数据”才成为互联网技术行业中的热门词汇。

大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据的采集:科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。

大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。

数据信息来源于哪里权威

大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM 等公司倡议发展起来的。大约从2009年始,“大数据”成为互联网信息技术行业的流行词汇。

大数据是一个不断演变的概念,当前的兴起,是因为从IT技术到数据积累,都已经发生重大变化。当今世界,大数据无处不在,它影响到了我们的工作、生活和学习,并将继续施加更大的影响。

关于“大数据”概念产生的来龙去脉:

“大数据”的名称来自于未来学家托夫勒所著的《第三次浪潮》

尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇.

最早应用“大数据”的是麦肯锡公司(McKinsey).对“大数据”进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司。麦肯锡公司看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。

“大数据”的特点由维克托•迈尔-舍恩伯格和肯尼斯•库克耶在《“大数据”时代》中提出维克托•迈尔-舍恩伯格和肯尼斯•克耶编写的《大数据时代》中提出:“大数据”的4V特点:

Volume(数据量大)

Velocity(输入和处理速度快)

Variety(数据多样性)

Value(价值密度低)

大数据技术基本概念

大数据的定义首先,还是要重新审视大数据的定义。

行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。

广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

相比较而言,我还是喜欢技术定义,哈哈。

大家注意,关键词我都在上面原句加粗了哈!

要做什么?——获取数据、存储数据、分析数据

对谁做?——大容量数据

目的是什么?——挖掘价值

获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。

例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。

但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。
2.大数据,到底有多大?

我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的关系,大家应该都很熟悉了:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢?PB/EB级别。

大部分人都没听过。其实也就是继续翻1024倍:

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。

1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

EB还不是最大的。目前全人类的数据量,是ZB级。

1 ZB = 1024 EB (ZB - zettabyte)

2011年,全球被创建和复制的数据总量是1.8ZB。

而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。

目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。

大数据的级别定位:1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)

数据的增长,为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的几个重要阶段。

大致来说,是三个重要的阶段。

第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。

这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。如果你对大数据开发感兴趣,想系统学习大数据的话,可以戳我加入大数据技术学习交流群,私信管理员即可免费领取开发工具以及入门学习资料

第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。

随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。

第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。

经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。
4.大数据的4Vs

行业里对大数据的特点,概括为4个V。前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。

我们一个一个来介绍。
Variety(多样化)

数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。

数据又分为结构化数据和非结构化数据。

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。

在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。
Velocity(时效性)

大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……

怎么样?是不是瞬息万变?
Value(价值密度)

最后一个特点,就是价值密度。

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。

以上就是关于大数据概念是如何产生的,数据信息来源于哪里权威的全部内容,以及大数据概念是如何产生的的相关内容,希望能够帮到您。

版权声明:本文来自用户投稿,不代表【易百科】立场,本平台所发表的文章、图片属于原权利人所有,因客观原因,或会存在不当使用的情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系(邮箱:350149276@qq.com)我们将及时处理,共同维护良好的网络创作环境。

(0)
上一篇 2023年09月02日 10:42
下一篇 2023年09月02日 10:47

相关推荐

  • 牡丹花需要施什么肥料,牡丹花喂什么肥开花更鲜艳

    牡丹花喂什么肥开花更鲜艳1、以富含氮元素的花肥为主,饼肥或者黄豆肥等有机肥是最佳花肥,但一定要充分腐熟再施,不然温度高容易导致烧根。另外,农用复合肥、奥绿缓释肥、美乐棵等花卉专用肥也可以。地栽的牡丹花花肥可以距离根部十公分以外均匀撒下,盆栽最好兑水稀释灌根。2、追肥量一定要适宜,…

    2023-09-02
  • to签是啥意思,To签和亲签哪个更贵重

    to签是啥意思To签就是在签名的时候会写To某某,即粉丝的名字,有时候还会有附言。一般来说加上to字的签名就是被特殊化过的东西,具有特殊的意义,被炒作的非常厉害,特别是那些韩国的明星。to签某种意义来说,它就相当于是明星对某个粉丝说,这是专门签给她的名,它的意义肯定就会不一样,身…

    2023-09-02
  • 什么是doi,平安夜为什么要吃苹果?这问题困扰了我几十年[憨笑]

    什么是doiDOI全称为Identifier-DOI,是一套识别数字资源的机制,涵括的对象有视频、报告、书籍等等。它既有一套为资源命名的机制,也有一套将识别号解析为具体地址的协议。数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布…

    2023-09-02
  • 鲁智深出家猜一个成语,鲁智深鲁提辖是什么官职

    鲁智深鲁提辖是什么官职鲁智深鲁提辖是类似指挥官的官职。提辖只是“提辖兵甲盗贼公事”的一个简称。这是在宋代一路或者是一州所设置的一种官职。提辖属于武官,主要做的事情就是掌握自己那一个军队的相关训练,同时监督抓捕盗贼等一系列事务。其次,提辖还是一种军务官。宋朝的时候,一般会在四个抵挡…

    2023-09-02
  • 边牧七白三通指什么,七通三白边牧是啥意思

    七通三白边牧是啥意思边牧七通三白是边牧三通七白,指的是边牧身上毛发的一种特点,七白指四只脚、脖子、鼻梁、尾巴尖这七个地方为白色,三通指脖子上的白毛没有被其它颜色的毛发切断,鼻子的白毛连到脖子上的围脖,两个前脚的白毛也连接到脖子上的白毛。三通七白的来源是在国内最早经营边牧犬种的犬舍…

    知识分享 2023-09-02
  • 轿车属于小型客车,小型客车包括轿车吗

    轿车属于小型客车吗?轿车属于小型客车。小型载客汽车泛指小型载人的汽车,即定员2--9人的小型客车,一般包括:跑车、轿车、微型面包车,这种客车由于体积小,所以很适用于家庭和单位使用。一般区别于中巴、大巴车。微型车的优点就是价格便宜,维修方便,油耗较低。轿车(salooncar)是指…

    2023-09-02
  • dnf充满爱慕的信有什么用

    dnf充满爱慕的信有什么用1、充满爱慕的信在游戏中算得上是一个好感度道具,而且是比较稀有的一个好感度道具,玩家可以通过赠送NPC这个充满爱慕的信便可以提升其1000点的好感度,好感度的提升还是比较大的。2、使用方法:(1)首先需要先打开背包找到充满爱慕的信这个道具,然后进行使用,…

    2023-09-02
  • 文昌鸡属于哪一个菜系,广州文昌鸡属于哪个菜系

    文昌鸡属于哪一个菜系广东文昌鸡,是广东省传统的汉族名菜,属于粤菜系。以海南岛文昌鸡为主料,配以火腿、鸡肝、郊菜,经煮、蒸、炒而成。此菜造型美观,芡汁明亮,肉质滑嫩,香味甚浓,肥而不腻。三样配料颜色不同,滋味各异,为广州八大名鸡之一。风味特点:文昌鸡造型美观,其肉质滑嫩,皮薄骨酥,…

    2023-09-02
  • 出租商铺不交税后果

    出租商铺不交税后果出租商铺属于出租非住房,要交的税包括:增值税、附加税、房产税、城镇土地使用税、印花税、个人所得税。如果不交税,就无法出租商铺,甚至受到法律的惩罚,所以,一定要按照规定,缴纳相应的税费。商铺是专门用于商业经营活动的房地产,是经营者对消费者提供商品交易、服务及感受体…

    知识分享 2023-09-02
  • 咸鱼咸鱼玩家是什么意思,闲鱼玩家有几种玩家称号的

    咸鱼咸鱼玩家是什么意思咸鱼玩家是闲鱼APP赋予闲鱼领域内专业、有趣的用户的独特身份称号,但是有时候也被用来比喻“不花费或者花费很少精力和时间参加活动来提升自己的玩家”。闲鱼是阿里巴巴旗下的闲置交易平台App客户端(iOS版和安卓版),会员需要使用淘宝或支付宝账户登录,无需经过复杂…

    2023-09-02