本篇文章4360字,读完约11分钟
“数字技术”这个词被翻译成“数据技术”,可以说它不是一个新词,但真正引起我注意的是阿里研究院最近写的一本书《互联网+:从它到数据技术》。作为中国信息技术领域的领导者,阿里的技术结论不可低估。
让我们把dt放在一边,先看看它。
从1936年图灵机的发明到1945年冯·诺依曼机器的出现,这些都是计算机发展的基石。即使在各种大大小小的计算机诞生之后,严格地说,这不是它。真正的信息技术应该从万维网的发明开始,它标志着信息已经进入了互联时代。
互联网技术在中国的发展比国外晚几年,但其发展势头远远落后于其他国家。1997年,中国的互联网用户只有60万,但现在已经超过6亿,而且其增长速度是可以看到的。可以说,互联网已经影响了人们的衣食住行的方方面面。
这是一个it时代,也许大多数人不会反对这个结论。但是有一天,有人突然对你说:人类正在从信息时代进入数据技术时代,而我们已经用一只脚进入了数据技术时代?
为什么这么突然?
这不是突然的,一切都是如此可预测!
Dt时代即将到来:变革正在悄然发生
数据科学家一词最早是在2009年提出的。当然,这不是一个耸人听闻的事件,甚至许多人都不同意这门科学的突然出现。
然而,就在几个月前,有人在腾讯科技上发表了一篇文章,“数据科学家可能成为2015年最热门的职业”。我们暂时不评论这篇文章的正确性,但是它已经给出了一个信息:数据已经引起了人们的警惕。
如今,我们可以在各大招聘网站上随意搜索数据挖掘,各大公司对这一职位的需求如雨后春笋般涌现。同样,通过各种招聘网站和平台,我们可以发现新的职位在不断创新,如数据工程师、数据分析工程师、hadoop工程师等。
数据挖掘工程师的职位可能早就存在了,但是大数据挖掘工程师呢?一个词的不同意味着相隔千里。有人可能会说,这些都是从程的角度看和围攻狮子,这并不代表一般公众。好吧,让我们换一种方式来思考这个问题。但是,让我们继续讨论招聘。我曾经写过一篇关于大数据时代招聘模式的文章,分析了招聘网站是否知道我们(求职者)需要什么。
事实上,答案是显而易见的。我们开设了一个招聘网站,向我们展示了我们想要提供的职位;我们打开一部电影,边栏显示相关的电影,或者是同一类型的,或者是同一演员的;我们在网上购物,底部的栏显示了你真正需要的东西。不仅如此,当我们阅读文章、搜索问题、在线旅游预订甚至阅读新闻时,我们总是会在一些不经意的角落找到我们需要的信息。真巧。
个性化定制已经反映在我们生活的方方面面,这绝非巧合。暂时,我们不要考虑这个人有多少个性。不可否认的是,与传统的信息呈现方式相比,它确实有效。
是的,我们突然发现,作为一个在互联网上积极寻求信息的主体,人们已经开始变得被动。曾几何时,信息变得如此活跃,但这一切让我们感觉如此自然。背后的数据是罪魁祸首。是的,数据出卖了我们。
我突然想起不久前发生的一件事。由于某种原因,我需要一群小企业和小公司的联系方式。根据我们的传统做法,我们必须找到相关领域的人,并依靠他们的关系背景来获得这批联系信息。但是我突然发现我们在相关领域没有熟悉的朋友,或者即使有,我们也不能得到足够的联系方式。
我以智联招聘为源头,利用爬虫、网页信息抽取、数据分析和挖掘等相关技术,获得了一批拥有近3000个企业邮箱的数据。风留下了痕迹,而雁留下了声音。现在是互联网泛滥的时代。只要它是一个行为实体,它总会在互联网上留下足迹。
这一事件让我再次感叹网络信息的浩瀚和伟大。信息技术的飞速发展,十几年的信息积累,互联网上的信息就像一座巨大的金山。所有卑微的人都能从中偷到一点财富。广阔的地球上还有成千上万的其他人呢?数据变得如此有用,其影响力如此强大!所有这些变化都是如此自然,如此无声。
也许,正如马云所说,人类正从信息时代走向数据时代!
数据传输时代的骨架:大数据处理平台的演变
今天,随着数据处理需求的快速增长,什么支持数据的实现?是的,它是数据处理平台,或者换句话说:一个完整的数据处理流程。
从数据采集、清理、流式实时计算,到数据登陆,大多数时候,在这个完整的过程(可能没有流式实时计算)之后,它真正进入了数据价值挖掘阶段,包括数据的离线计算,并通过一系列建模挖掘其隐藏的商业价值。
当然,在当今的大数据世界中,数据收集、处理和挖掘都是好的,所以我们必须添加一个大词。然后,随着dt时代的到来,是数据平台,或大数据处理平台,可以支持这个过程的循环。它将是支撑dt时代到来的骨架!
当然,大数据处理平台在开始时并不存在,但经过一系列的演变后,它出现了,然后形成了我们今天看到的数据平台形式,无论是这里还是那里。
不久前,我发起了一个主题讨论,在暴风骤雨——分布式it技术小组中有近1000人参与(当然,实际参与讨论的人并不多,很多人还是喜欢静静观看),其核心是互联网公司大数据平台的发展现状。
当时讨论过程非常激烈,聚集了来自各个企业和公司的奶牛、小牛、程、设计狮子和产品狗。简而言之,有各种各样的动物,有不同的观点和看法,但总的来说,我们对几种大数据平台的当前形式仍然有相对一致的看法。
1.大数据处理平台的最终形式:深度挖掘
数据已经完全流通,包括完整的大规模数据采集系统、数据预处理和清理系统、数据流实时计算系统、大规模数据存储系统和大规模离线计算系统;拥有全面的数据监控和调度系统,能够方便、低成本地监控和调度数据流,实时掌握数据的动态变化;有了满足自身业务需求的完整的机器学习算法库,数据挖掘水平进入了深度数据挖掘阶段。
以蝙蝠为代表。在中国,英美烟草一直是技术领域的领导者,因此他们确实在数据价值挖掘方面处于领先地位。
2.其次,大数据平台是完美的,它处于浅层数据挖掘的状态
同样,在这种形式的企业中,数据平台的数据已经完全开放,他们已经开始尝试挖掘数据的潜在价值,意图实现数据的实现。
当然,这可能是由于技术积累的问题或人力物力的原因。他们没有能力进行深度勘探和挖掘,但他们一直在努力工作。他们缺少的是一套完善、适用、方便的数据挖掘数据库。
这种形式的公司有很多,如csdn、去哪儿、鳄龙等。,他们正在不懈地探索个性化的道路。
3.数据流通处于数据统计分析阶段
在这种形式的数据中心中,大规模的数据处理平台已经基本建成,数据已经能够流通,处于大规模数据的统计分析阶段。
在这类公司中,他们更倾向于建立数据仓库,存储、统计和分析大量数据的趋势和变化。因此,就hadoop生态系统而言,他们可能更喜欢使用hive这样的技术或工具。
大多数公司都是这种形式,比如360,它刚刚在一年内建立了一个大数据部门。当然,有很多很多类似的公司。他们想知道他们有什么样的数据以及这些数据是如何变化的。只有理解和控制这些数据,他们才能做出更好、更合理的商业决策。
在不久的将来,既然他们已经完全掌握了数据的规律,他们也会努力挖掘数据的潜在价值。
4.数据集成和平台建设阶段
在这种形式下,数据尚未流通,整个系统尚未建立。
换句话说,在过去的许多企业和公司中,各个部门的产品数据是分开维护的。需要维护多个数据,成本高;数据利用率低,数据没有连接。
他们打算整合数据,并拥有一个完整的收集、清理和着陆过程。因此,他们特别缺乏知道如何大规模收集、清理和记录数据的人才。或者,换句话说,他们缺少了解hadoop生态系统的人。
这样的公司很多,比如金山的西山驹和智能手机行业的黑马小米。
5.数据量是不够的,但仍然打算建立一个大数据处理平台
这些公司大多是小公司。就数据量而言,他们并不迫切需要建立一个完善的数据处理平台。
它可能会受到大数据趋势的影响,但从长远来看,随着数据量的增长,这必然是一种趋势。因此,他们往往花费少量的人力物力来进行这方面的技术预研究,或者搭建一个简单的小规模数据处理平台。
事实上,简单来说,这是五种不同形式的大数据处理平台,但这难道不是大数据处理平台的一个演进过程吗?!随着dt时代的到来,你知道你在哪里,在未来你将在哪里发展和改变吗?
只有当骨骼建成后,我们才能谈论如何挖掘数据的潜在价值。我们不仅需要骨骼来支撑dt,还需要源源不断的血液来刺激它的活力。
数据时代的血液:数据从何而来
如果说大数据处理平台是支撑dt的骨架,那么数据就是dt的血液,如何制造血液是每个人都需要关注的问题。
1.企业的业务数据
最直接的数据来源是每个企业生成的业务数据。也许有些公司有很强的先见之明,多年前就开始收集自己的数据,也许他并不打算这样做,但无论如何,他保留了自己的历史数据。当然,一些公司生成数据的速度足够快,并且有足够的数据,所以他们不必担心这个问题。
2.互联网的隐藏数据
不久前,一个朋友在小组中问了一个关于数据采集和分析的复杂问题。可能是他问的问题太深奥了,也可能是小组里没有大奶牛。简而言之,没有人能解决它。
有人问:
伙计,你为什么这么深入研究这个?
他回答了一句:
获取数据,你研究和处理的数据不是从互联网上获取的吗?
这句话突然惊醒了我:有人开始在互联网上工作,一座公共金山。十多年来隐藏了多少数据财富?今天,随着dt时代的到来,越来越多的人必然会去探索它的价值,但这需要一定的技术和手段。
3.移动互联网数据的激增
与互联网相比,移动互联网的发展历史并不长,但它的发展日新月异。如今,随着智能手机的普及和3g、4g网络的推广,移动互联网产生的数据呈爆炸式增长,这是一座新的数据金山,需要我们去挖掘。
4.传统和离线数据的访问集成
随着总理的互联网加,传统行业开始与互联网一个接一个地结合,这带来了最直接的影响:离线数据访问和整合。
有些人可能会说:传统行业能有多少数据?不要低估传统行业的数据。毕竟,他们有近几十年的历史,远远超过互联网,他们积累的数据量不可低估。
随着互联网的进一步发展,线下访问数据也将成为dt时代的血液之一。
5.将一切与互联网连接起来:一切都可以产生数据
说到物联网,其实很多年前,有人说它肯定会着火,但它以前从来没有着火过。原因是我不在乎两个:第一,移动网络的成本太高;第二,终端传感技术还没有发展到这个阶段。
但现在不同了。随着3g和4g网络的普及,移动网络的成本大幅下降;随着智能终端传感技术的快速发展,物联网的技术方向不再是一个概念。我们可以看到,许多互联网公司已经开始布局智能领域,包括智能家居、智能交通、智能城市、智能办公等。
在数据传输时代,感应终端也将成为数据生成的巨大来源和数据传输时代的造血来源。
今天,当dt时代即将到来时,不仅数据处理和数据采集值得反思,而且其他方面也需要考虑。通过不断的反思和不断的改进,我们已经做好了迎接dt时代到来的充分准备!
标题:DT时代变革的反思:为何这么突然?
地址:http://www.jcpa.cn/blgxw/5568.html