你好,我是蔡元楠。目前是 Google Brain 的软件工程师。

在接下来的 4 个月时间里,我会与你一起探索大规模数据处理的世界。

在开始我们的系统性学习之前,我想先和你分享两个我亲历的故事,借此告诉你,我为什么要开这个专栏。

2014 年,我刚开始在美国找工作,在一次面试中,面试官让我解释一下 C++ 的 smart pointer 和 string view。我完全回答不上来。

当时我面露难色怀疑人生,难道我的前半生学的是“假的”C++ 吗?

回想学习经历,虽然我在一个还可以的高校里学习了 C++ 课程,考试成绩也是 90 分以上。但我的学习资料只有按 C++ 98 标准编写的教材,和当时流行的 CSDN 论坛文章。

而当时的教材里根本没有提到过 smart pointer 和 string view。

没想到工业界早就进入了 C++ 0x/11 标准甚至是 C++ 17(当时是试验标准)。我后悔没有学习紧跟时代的最新技术,而信息的不对称就会造成巨大的认知偏差。

那学习“最新技术”一定就是好事情吗?我想通过第二个故事来回答这个问题。

2017 年,我帮 Google Ventures(Google 的风险投资基金,会寻找并帮助优秀初创公司)在投的初创公司做导师,那时候经常参加一些对方公司的技术架构评审。

一次评审中,对方的技术 VP 眉飞色舞地介绍他们的技术框架和××大厂一样,罗列了 Kylin 和 Tornado 等一些时髦的技术名词。

因为我并不了解提到的几个技术,就好奇地问为什么 Kylin 适合他们团队,Kylin 为他们解决了哪些独特的问题?

他当时的回答并没能说服我和别的同事:“因为××大厂也在用,这就是未来的技术方向”。

看得出来,这位技术 VP 还没有真的搞清楚使用一个技术的原因。

学会用一个技术只是第一步,最重要的是要追问自己:

  • 这个技术解决了哪些痛点?
  • 别的技术为什么不能解决?
  • 这个技术用怎样的方法解决问题?
  • 采用这个技术真的是最好的方法吗?
  • 如果不用这个技术,你会怎样独立解决这类问题?

如果没有这些深层次的思考,你就永远只是在赶技术的时髦而已,不会拥有影响他人的技术领导力。

事实上在 Google,类似这样的“灵魂追问”每天都在发生。

这里敢于打碎任何权威,所有的技术设计都是从问题出发。每一个工程师都会独立思考究竟什么是最佳方案,而不是照搬现有结论。

正如乔布斯所说,过去的点最终会连成线。这两个经历让我深感有使命去帮助更多技术同行,比如第一个故事里的我,或者是第二个故事里的初创公司 VP。我想设计一个专栏,去解决故事里的问题。

第一,我想要介绍硅谷最前沿技术和真实的案例

比如,在大规模数据处理领域,MapReduce 或者 Apache Storm 的不少设计理念已经无法胜任最新的挑战。

所以,我会介绍最新的知识,例如框架层面的前后端分离理念,和批处理流处理统一的思想。

第二,我不想只停留在照本宣科的层面

正如上文所说,学会用一个或者两个技术是不够的。

更重要的是,我会剖析技术框架产生的原因和它们解决的问题。这样当下一次你再碰到相似的问题时,就不用照搬别人的方法。

为什么写大规模数据处理?

为什么会选择大规模数据处理这个主题呢?并不是因为我觉得这个主题受众多、销量好,相反,我认为大部分人都还没有正确理解数据处理技术,常常见到的误区有如下几种。

第一,低估了数据处理的重要性

因为我在 Google Brain 的 AI 应用领域工作,切身感受到过,没有高质量的数据处理的话,人工智能是只有人工没有智能的。

Google 也曾在很长的一段时间里低估过数据处理。

例如,在语义理解上,Google 认为自己有最多的搜索文本数据,最好的算法,那就一定能把语义理解做的最好。

可是到 2016 年左右,一个名不见经传的德国小公司却一举超过了 Google,大家都很惊讶。后来发现原来他们凭借的是高质量的数据标注和处理。

第二,低估了数据处理工程师在组织架构上的重要性

许多工程师都喜欢自嘲自己的工作是“搬砖”,事实也正是如此。

包括我在内,很多人的工作内容都避不开数据的搬运和处理。把数据从这个格式处理成那个格式,把数据从这个数据库搬到那个数据库,这个服务器搬到那个服务器,这个客户端搬到那个客户端。

可能连你自己都还没有意识到,即使是一个写前端的工程师,他的很多工作还是数据处理。

大数据领域泰斗级人物 Jesse Anderson 曾做过一项研究,一个人工智能团队的合理组织架构,需要 4/5 的数据处理工程师。很不幸,很多团队没有认识到这一点。

第三,低估了数据处理规模变大带来的复杂度

我把这个专栏定位在“大规模”数据处理,因为我想着重在数据规模变大时需要的技术思想。

很多人可能还没有遇到过“大规模”数据的问题,容易把问题想简单了。

我在 Google 面试过很多优秀的候选人,应对普通的编程问题,他们能够用算法和数据结构解决得很好。可是当我追问数据规模变大时怎么设计系统,他们的回答却并不让人满意。

当你的产品从 1 万用户到 1 亿用户,技术团队从 10 个人到 1000 个人,之前的方法还能奏效吗?

第四,高估了上手数据处理的难度

一方面我们需要认识到大规模的数据处理是有复杂的因素的。但另一方面,我想在这个专栏里教会你,有了正确的工具和技术理念,现在上手数据处理并不困难。

在 Google,我见到很多应届生来了半年后也能轻松应对上亿的数据量。

我给开篇词起名为《从这里开始,带你走上硅谷一线系统架构师之路》,就是为了给你设计切实可操作的学习路径,让你比别人更准确深入地掌握实用的大规模数据处理技术,最终通往硅谷一线系统架构师的水平。

因此,我们的学习路径会是这样的。

第一部分,先会用原汁原味最实际的硅谷一线大厂的案例,向你解释 MapReduce 为什么不能应对最新的技术挑战。然后我会从实际的问题出发,从头开始引导你怎样从顶层设计一个数据处理框架。

第二部分,同样是结合实战案例,来讲解在数据处理框架的使用和设计中必需的一些基础知识。这些案例紧贴应用,可能就是你的团队明天会碰到的问题

第三、第四部分深入拆解了 Apache Spark 和 Apache Beam。不仅会用实际的案例教会你如何使用,还要教会你为什么它们这么设计。你会发现它们的设计其实大致和第一部分的顶层设计是一致的。下一次,即使这个世界一无所有,你也能构建类似的框架解决一系列问题。

第五部分按 Google T6 级别设计,是带着代码的真枪实弹的架构设计。毫不夸张地说,能完整掌握第五部分的思想精髓,你就能比肩硅谷一线大规模数据处理架构师。

第六部分着重培养你的技术远见。因为是否能现在就开始准备应对 10 年后人类社会的技术挑战,是你拉开与别人差距的重要一站。

unpreview

在刚开始动笔写专栏的时候,我就在设想,什么样的人会是这个专栏的目标读者呢?

直到专栏快上线,我写下这篇开篇词,我才真正定义读者的标签——应该就是跟我一样渴望成长的人。是的,我和你一样,都渴望成长——渴望知识的成长,渴望经验的成长,渴望财富的成长。

所以我想把这个专栏设计成一份共同的成长规划,而不是一本死板的教材。

正如我在开头的小故事里所说的,这个世界没有谁是绝对的权威。

我希望你每一期都能在留言栏里质疑、提问和讨论。这些互动能帮助我和别的同学一起提高。

最后,我期待和你一起开始学习,共同成长!

unpreview