描述
若从 Google 对外发布“三驾马车”论文开始算的话,大数据相关的技术已经走过了近二十年。
MapReduce、Hadoop、Storm、Spark……这些名字你一定不会陌生。没错,它们都是用于处理大规模数据的技术。这还只是其中的一部分,我们可以继续往后列:Kafka、Google Cloud Dataflow、Flink、Beam…
日新月异的大规模数据处理技术给我们带来了巨大挑战。但真正困扰我们的,从来都不是能否紧随技术潮流,而是能否找到最高效的方式,真正解决业务遇到的实际问题。
回到业务场景里再来谈大数据,你可能会遇到这样的问题:
- MapReduce 很经典,可为什么会被硅谷一线公司淘汰?
- 想要落地 Spark,有哪些避坑经验可以提前掌握?
- Google 推崇的 Apache Beam 真的能够高效解决现有大数据处理场景的所有问题吗?
为此,我们邀请了蔡元楠来开设专栏,通过实战带你了解 Google 的大规模数据处理技术与应用。
蔡元楠,Google Brain 资深工程师,工作领域为 AI Healthcare(人工智能的健康医疗应用), 他领导并开发超大规模数据驱动的全新 AI 应用与商业模式。在加入 Google 之前,他分别于哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位,并曾于哈佛医学院执行官项目学习。同时,他在 Google 还兼任 C++ 语言评审以及 AI 挑战赛评委会委员。
在这个专栏里,蔡元楠将与你分享 Google 的大数据处理前沿技术和思维。专栏内容侧重工程师的个人成长,崇尚硅谷式的技术领导力与批判性思维,作者会通过大量的硅谷最佳实践,从实际场景出发引导你进行独立思考,以帮助你从普通工程师成长为大规模数据处理技术专家。
专栏共 40 讲,分为 6 大模块。
模块一 直通硅谷大规模数据处理技术
这一模块从现有大规模数据处理技术中的问题入手,带你讨论新技术应有的特点和它可以解决的问题,并告诉你为什么会这样设计,最终用一个实战体验带你巩固顶层设计的知识。
模块二 实战学习大规模数据处理基本功
万丈高楼平地起,在上手应用技术之前,有些基础知识你还需要掌握透彻。这一模块将庖丁解牛硅谷应用实例来讲解分布式系统中的核心知识点、现有的数据处理模式和架构等,为你的后续学习打好必备基础。
模块三 抽丝剥茧剖析 Apache Spark 设计精髓
打好基础后,模块三的任务是深入拆解 Apache Spark。通过实际案例,带你上手 Spark 这个围绕速度、易用性和复杂分析构建的大数据处理框架,同时引导你深入思考 Spark 的设计哲学。
模块四 Apache Beam 为何能一统江湖
模块四的内容会重点讲述 Apache Beam 的应用场景、模型和运行流程,教会你为什么它是这么设计的?优点在哪里?怎么解决实际问题?
模块五 决战 Apache Beam 真实硅谷案例
破解“知易行难”的方法就是实战。模块五将先带你了解 Beam 独一无二的运行模型和应用示例,再用最实际的硅谷一线大厂案例来教会你使用 Apache Beam,真正解决你工作中可能会遇到的问题。
模块六 大规模数据处理的挑战与未来
数据量不会停止增长,5G 时代即将到来,未来的数据处理技术又会面临哪些机遇与挑战?大规模数据处理在深度学习领域又是如何应用的?这一模块跟你一起探讨。