文 | 郑博
数据生态是基础架构生态的最重要一环,数据的处理分发与计算,从始至终贯穿了整个数据流通生态。自从数据集中在数据仓库和数据湖中,数据集成已经发生了翻天覆地的变化,我们现在通常称其为现代数据技术栈。但今天的现代,也可能成为明天的过时。
如今,数据治理愈发重要,我们常常发现 80% 的数据业务,其实是靠 20% 的数据在支撑;同样,80% 的数据质量问题,其实是由那 20% 的系统和人产生的。Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。
这其中的数据集成问题引人关注,就不得不提到现代数据技术栈底部的 E (数据抽取 Extract) T (数据转换 Transform) L (数据加载 Load) 和反 ELT 问题。行业预计,未来企业仍会增加他们必须构建和维护的内部连接器数量。今天我们想介绍这样一家企业——Airbyte,一家专注于 ELT 管道的开源数据集成平台。
源起:YC 加速器
2020 年,LiverRamp 和 Michel Tricot (RideOS 前工程总监兼集成负责人),以及 John Lafleur (专注于开发工具和 B2B 服务的连续创业者) 共同创立了 Airbyte。
在早期,这个团队是想专注于营销公司的数据连接,并带着这个想法加入了 YC 加速器,但由于受到疫情等因素影响,他们没能成功。也就在此时,团队决定进行更深入的数据集成,也就是今天我们所见的 Airbyte——面向数据工程,没有局限于特定行业,但提供了用于构建连接器的图形 UI,以及供开发人员挂钩的 API。
团队认为,许多公司都是从构建自己的数据连接器开始,往往最初的效果还不错,但长期下来,他们逐渐会发现复杂性在于做维护,也就是数据整合的成本在维护的投入。即便对于专门构建这些连接器的公司来说,其复杂性也将让它们很难持续跟上连接器的发展,Airbyte 希望成为复制数据的标准。
此后,2020 年 7 月到 9 月,Airbyte 团队在 3 个月内与领先使用 ETL/ELT 工具的客户,进行了 45 次电话沟通,了解到客户即使为这些解决方案付费,也不得不在旁边构建和维护连接器,因为他们要么不受支持,要么支持但不以他们需要的方式。
展开全文
除此之外,大多数 ETL/ELT 平台都是基于云的,需要将数据移出基础架构。这不仅增加了不必要的成本,还给越来越多公司带来数据隐私和数据安全风险。最后,工程师们还是要自己开发和维护这些连接。正是基于这些调研,使 Airbyte 团队更加相信自己所选的方向。
资本:快速给予支持
Airbyte 获得了越来越多的关注。根据 Airbyte 自己披露的信息,2020 年 11 月的使用量是 10 月的两倍。在 2021 年 2 月之前,Airbyte 实现了每月 100% 的增长,每个月都有 500 次部署。良好的数据也引来了 Accel 的 520 万美元种子轮投资。同年 5 月,仅仅 3 个月后,由 Benchmark 领投的 A 轮 2600 万美元融资完成。
到 2021 年 11 月时,Airbyte 的部署已经达 100k,连接器数量也迅猛增长。此时,Altimeter Capital 和Coatue Management 领投的 1.5 亿美元 B 轮融资完成,公司估值 15 亿美元。从 2020 年成立到 2021 年底,公司超越独角兽估值,仅用了不到两年时间。
来源:作者绘图
ELT:不只是变换顺序
要聊 ELT,我们还是需要先从传统的 ETL 讲起。从传统而言,当我们开始构建数据仓库时,都要先去了解业务流程,明晰业务是如何运转的,数据是如何留痕的。通过收集用户的相关需求,从而去规划设计报表。企业需要进行数仓分域、分层、逻辑建模等一系列操作,完成这些后才会去数据仓库中建表。
在这之后,企业就需要进行 ETL 操作了,由于多数数仓仅接受 SQL 的关系数据结构,因此,企业需要将不符合要求的数据转换为基于 SQL 的数据。这种方式在有限内存和处理能力的本地数据库中普遍存在。我们不难发现 ETL 的问题,主要是流程长和笨重。如果企业业务或者底层数据频繁变化,ETL 流程就要随之调整,这不仅浪费时间,而且也受制于吞吐量,成本极高。
因此,ELT 应运而生。工程师发现 ETL 复杂的地方主要是在 T 和 L 的强耦合,所以 ELT 的核心思想就是解耦。与 ETL 不同,ELT 不需要在加载过程之前进行数据转换。ELT 将原始数据直接加载到数仓中。使用 ELT 数据管道,数据清理、丰富和数据转换等过程都在数仓内完成。原始数据无限期地存储在数仓中,允许进行多次转换。
来源:作者绘图
使用 ELT 的优势是突破性能瓶颈、程序简化、组件替换、维护成本降低等。尤其是解耦后可以适应业务的敏捷变化,灵活性和效率均大幅提升。
产品:专注 & 拥抱开源生态
Airbyte 最主要的产品还是 Extract 数据抽取和 Load 数据加载产品。简单来说,就是利用连接器 (Connector) 连通多平台间的数据,其逻辑是平台连接的数据源越多,平台越稳定,而平台就会拥有壁垒。
来源:Airbyte 网站截图
其次,Airbyte 也提供 Transform (数据转换) 产品,实际上 Transform 数据转换产品 Airbyte 也是集成了 Dbt 这样一个开源工具 (Dbt Labs 也是估值 42 亿美金的独角兽),用户使用 SQL 语句就可以进行数据转换,在这里我们也不难发现美国 Infra 基础架构领域的良好生态,大家专注在自己的领域,通过生态互相集成,而不是做大而全的产品。
最后,是 Embed 报表插件类型的产品,主要解决 BI 工具和前端页面重复建设问题。公司将数据迁移到云上后,定制化报表需求会需要搭建数仓和 BI 工具。通过 Airbyte Embed 产品,其将此过程变简单化,数据上云数仓后,自动产生分析报告,节省了时间。
来源:Airbyte 网站截图
机遇:云数仓发展 & 数据量爆发
说了这么多 ETL 和 ELT,那么 Airbyte 这家专注于 ELT 赛道的新兴创业独角兽崛起的机遇是什么呢?我想一切还得从云开始聊。
随着云计算的兴起,数据仓库云化进程加速。它的按需取用、弹性扩容等特性也深深地影响了整个基础软件行业的变革。行业初期,很多所谓的“云数仓”只是将物理硬件环境直接打包上云,存算没有分离,弹性扩展也无法实现,这种 “上云”并没有进行针对云环境特点的优化。
行业的转变来自 2014 年,Snowflake 的云原生数仓横空出世,它通过多集群共享数据存储和计算分离架构开始深度融合云平台。传统企业基于本地部署的资源,计算、存储以及网络带宽等都相对昂贵且受限。所以将 T 环节放在 E 和 L 中间是可以理解的,毕竟我们需要平衡硬件成本和计算效率。
但 Snowflake 这种云原生数仓的出现,带来了企业计算和存储成本的持续下降,这意味着企业可以在数仓中直接存储未经转换的数据。事实上,也确实有越来越多的数据被存储在了云端,这为 ELT 的兴起提供了土壤。
来源:IDC 报告
另一方面,我们不得不谈及企业数据量的爆发。数据已经成为现代企业成功的必备要素。越来越多的企业需要数据的聚合,无论是结构化、非结构化抑或半结构化数据,他们都希望以统一的平台接口来收集和处理。也正是因为这些数据资源的增长,推动了企业的数字化进程,他们需要更灵活和敏捷的方式来处理数据,显然,传统的 ETL 并不能满足这些需求。
来源:IDC 报告
开源:构建竞争壁垒
Airbyte 的商业模式是比较典型的开源商业模式,分为免费版、云版本和企业版。
开源版本可用作自助服务、免费解决方案。它可以访问无限连接器、复制、监控和通过社区为用户提供支持。云版本除了提供开源的所有功能之外,还提供其平台的云托管服务,并按积分收费。其信用消耗与基础设施计算时间相关。它带有云数据托管、数据管理、多个工作区等。
云版本提供 14 天的免费试用期,之后按每个积分 2.50 美元的价格按月收费。
企业版是针对处理大数据量需求的用户,依据客户用例收费。Airbyte 不对失败的客户用例收费。Airbyte 希望通过开源模式和付费贡献者计划,解决行业对长尾连接器的需求。从这方面来看,闭源产品大多是无法满足的。此外,他们还希望通过开源加快业界使用他们的连接器,从而提高产品可靠性。
事实上,开源完善了 Airbyte 的商业飞轮,加速了它的产品完善,提供了更好的竞争优势。它让活跃的贡献者社区参与发布他们自己的数据连接器以造福所有人,这是他们连接器快速增长的重要原因之一。
在产品层面,开源模式帮助了连接器保持高水平的可靠性。Airbyte 通过激励机制,鼓励开源贡献者维护他们贡献的连接器。个人和公司也可以像手机应用商店一样在其中发布他们的连接器。此外,开源工具负责以安全、快速和可靠的方式移动数据,维护者只需要简单配置数据连接器即可。
开源模式看起来也得到了资本的认可。Airbyte 在 2021 年 12 月的 B 轮融资时,ARR 收入不足 100 万美元,但得到了 15 亿美金的估值。目前,根据 Airbyte 自己官网的披露,其每月同步 600 TB+数据,已经有 25,000+ 公司使用了它们,并且拥有 10K+的社区成员。我们有理由持续关注和期待未来 Airbyte 公布的相关财务信息,以追踪其商业化进程。
未来:马太效应,赢者通吃
一个数据集成平台能更快地链接来自不同来源的数据,构建更多的连接器,其将获得行业壁垒,这个市场很可能会具有马太效应,赢者通吃的特点。与此同时,Airbyte 也并不寂寞,数据集成市场仍在有新老玩家涌入。
我们看到了老玩家,比如:成立于 2012 年的业界最早的 ETL 工具提供商 Fivetran (56 亿美金估值的独角兽企业,目前已转向 ELT 领域),也在致力于为广泛使用的平台和数据源构建连接器。其优势在于,它是最成熟的数据集成平台之一,受到世界上一些大公司的信任;而缺点在于定价较高,对长尾数据连接器的支持也有限,内部开发的可能性很小。当然,它是闭源模式。
我们也看到了新玩家,比如:2021 年从 GitLab 剥离出来的 Meltano,它也是以开源模式运作。但与 Airbyte 不同,它集成了 Singer 协议,并且暂时没有提供无代码或低代码选项,更适合技术水平相对较高的数据工程团队。
无论如何,Airbyte 的故事与挑战仍会继续,我们持续关注。