大数据平台的三次浪潮和诸葛io自身架构演变历程
来源:干货教程 作者:编辑-周筒 分类:大数据 热度:

前言:想要写一篇关于大数据平台的发展变革,以及诸葛io 自身架构演变的文章,是因为在诸葛io上线的20个月里,我们经历了客户量从0到10,000的突破。今天,诸葛io作为新一代数据分析平台,累计了过万 的企业用户,每月活跃客户数2000+家,月有效行为数据处理量超过了100亿。期间,我们的研发团队面临过许多难题与挑战,同时,对于大数据平台的发展 与架构也有更多的思考与沉淀。这些思考与实践,正是本文中将要和大家分享的内容。

一  大数据平台的三次浪潮

在讨论诸葛io这样的新一代数据分析平台之前,我们可以回顾一下1990年到2016年间,大数据平台经历的三次浪潮。

1.第一波浪潮

第一波浪潮起源于90年代,当时从计算机到软件大多还是企业级的,而数据分析就已经开始,这个时代也还是集中式软件时代,存储数据的成本也非常昂贵,所以大部分企业以KPI角度,抽取少量结构化数据,采取特定数据。代表企业如MicroStrategy、Microsoft、Oracle,代表产品诸如Sybase、Congos。这个时代能产生的数据有限,能处理数据的能力有限。

诸葛io

2.第二波浪潮

发展到2000年左右,互联网的兴起,带动了计算机和软件从工具型走向消费级,由于互联网基础设施的发展,以下三点带来了数据的爆发式增长。

1) 网络带宽的升级优化,从2g到4g,从拨号上网到光纤入户。

2) 围绕互联网信息化带来大量的数据产生,如门户网站,社交平台,内容和视频平台等。

3) 科技发展,从PC到移动设备到各种智能设备,都可以采集传输数据。

数据的存储成本越来越低,数据的产生速度越来越快,数据量越来越大,第一波浪潮时的技术体系无法满足需求,并且由于摩尔定律基础硬件设备和条件也在优化,处理数据的能力越来越强,此时带来了大数据平台第二波浪潮的发展:

诸葛io

图2

面临这样的环境趋势,第二波浪潮需要解决的核心技术问题包括三方面:

1) 越来越分散的数据需要集中采集处理

数据采集集中大多是“Pull”和“Push”两种方式,由于收集方式,可扩展性,收集效率,消息队列等都需要一些突破。

2) 计算的可扩展性

机器资源已经不是瓶颈。如何能分布式计算,把计算的复杂度分散拆解是核心要解决的问题,比如算法上的“多项式拆分”到计算框架上的“批处理”

3) 存储的可扩展性

越来越量大的数据,如果只是本地文件存储或者数据库存储,效率越来越低下,所以保障访问和提高效率,可以灵活扩展存储数据也是要解决的问题。

大数据技术在这个阶段陆续诞生了从Facebook早期开源的Scribe到Cloudera的Flume,到Linkedin的Kafka,以及后来的 Flink等数据流处理框架,熟知的还有Spark/Storm/Samza等实时处理技术。这个阶段,很多人都在提大数据和Hadoop,但是我们做到 的是数据流处理和实时处理以及存储方式的突破和革新,分析主体是分析中心化方式。由BI团队或者数据团队驱动,集中式的制定KPI,数据采集集中之后会按 照KPI进行处理展现。如果遇到多样化或者探索性的业务分析需求,还需要on-demand(按需)去编写程序或者SQL来基于这些大数据平台获取结果。

3.第三波浪潮

发展到2010左右,互联网发展从信息化走向了服务化,创业方向也从之前的“门户时代”、“社交时代”,“垂直化门户时代”,“内容视频时代”走向了电商、 出行、外卖、O2O等本地服务。如果说面向信息化的时代更多的是基于流量广告等商业模式,面向服务化时代更多的是直接面对客户价值的变现商业模式,或者说 消费者服务,所以从行业发展来看,服务类对分析的需求也要旺盛很多。

我们可以用破木桶蓄水过程来类比,到处都是水源的时候,并且外部水源流入率大于自身流失率的时候,更多的思考的是抓紧圈水源而不是找短板。从2000年到2014年,流量势头猛进,到处都是用户,对于企业而言更多的思考是如何圈用户,而不是如何留住用户并去分析流失原因。

当外部没有更多水源进入并且四处水源有限的时候,我们需要的是尽可能修复木桶,并且找到木桶的短板。在2014到2015年之间,互联网流量红利也初现消退 之势,国内的经济下行压力也逐渐增大,就好比水源有限一样,企业更多的需要分析自身原因了,去提高各种转化率,增加用户的忠诚度和黏性,减少用户的流失。 因此分析需求开始逐步提升,各个业务部门也都需要自我分析优化成本,提高产出和利润。

精英物联网-物联网大数据前沿科技信息资讯网,内容只代表作者观点,如有侵权请联系站务处理。

上一篇:不同文件格式和存储引擎在Apache Hadoop生态系统中 下一篇:干货:SaaS领域如何分析收入增长?
猜你喜欢
各类观点
热门排行
精彩图文