描述
随着近些年大数据技术的发展,以 Hadoop、Spark 为代表的大数据开源项目早已迭代成熟,构建起生态化系统。与此对应,不论是开发者还是企业,关注点也已经从技术的演进转向如何更好地应用大数据,去支撑业务和云计算、人工智能的深度融合。在这个智能的时代,不论是否从事大数据开发,掌握大数据的原理和架构也早已成为每个工程师的必备技能。
但是,不论是大数据的技术还是应用,都始终处于动态变化的过程中。对于很多刚开始接触大数据、考虑使用大数据的人来说,这无疑带来了很多困惑。
- 天天听别人讲大数据,自己也看了不少资料,却不得要领,看不到完整的大数据知识轮廓。
- 即使工作和大数据相关,但仍不清楚大数据平台究竟是如何运作的。
- 领导让我搭建一套大数据平台,而我却是一头雾水,不知从何处入手。
如果你也有这样的困惑,不要着急。其实在很大程度上这是大数据知识体系的繁杂造成的,没有专家的明晰指导,多数人都很难真正做到入门,并且通过构建知识体系达到融会贯通。
李智慧,同程艺龙交通首席架构师、Apache Spark 代码贡献者,长期从事大数据、大型网站架构的研发工作,曾担任阿里巴巴技术专家、Intel 亚太研发中心架构师、宅米和 WiFi 万能钥匙 CTO,有超过 6 年的线下咨询、培训经验,著有畅销书《大型网站技术架构:核心原理与案例分析》。
在这个专栏里,李智慧将结合自己多年大数据开发、应用的经验,帮助你构建一套立体化的知识体系,并从不同视角、不同领域带你找到你在大数据领域的突破口,真正从普通开发者晋升为拥有大数据思维并能解决复杂问题的技术专家。
专栏模块
一套完整的大数据知识体系,将包含 6 个模块。
模块一 Hadoop 大数据原理与架构
为什么讲大数据都要从 Hadoop 开始?大数据的问题和挑战不同以往,它的处理方法与技巧也颇有不同。理解大数据面对的问题以及处理技巧,是构建大数据知识体系的源头。理解大数据,从理解 Hadoop 开始。
模块二 大数据生态体系主要产品原理与架构
大数据领域不只有 Hadoop,还有数据仓库 Hive、NoSQL 系统 HBase、计算引擎 Spark、流计算引擎 Storm、Flink,以及分布式一致性解决方案 ZooKeeper 等,它们构成了一个完整的大数据生态体系,解决各种场景下的不同问题。
模块三 大数据开发实践
本模块以大数据开发者的视角重新审视大数据的各个方面,结合作者在阿里巴巴、Intel 从事大数据开发的实践经历,从“局内人”的视角为你揭秘大数据开发的内里乾坤。
模块四 大数据平台与系统集成
大数据从哪里来?算出来的结果又到哪里去?如何将大数据技术集成到当前系统中去?需不需要自己开发?有没有商业的解决方案?这可能是使用大数据时最迫切需要解决的问题。
模块五 大数据分析与运营
数据分析是大数据应用的一个重要场景,互联网企业运营常用的数据分析指标有哪些?如何呈现?数据分析结果异常了,企业关键绩效指标下滑了,该如何去追踪定位其原因?这些应用场景和问题答案都可以在本模块中找到。
模块六 大数据算法
大数据最激动人心的应用还是大数据机器学习,但大数据机器学习算法是不是真的有那么难?数学不好还能不能学好、用好大数据算法呢?这个模块告诉你,其实大数据算法并不难,原理一样很简单。