GitLab今天宣布,它正在将其开源 ELT(提取、加载、转换)平台Meltano作为一个独立的业务分拆出来,并得到了包括 Alphabet 的 GV 在内的许多著名风投和天使投资者的资金支持。
开发人员运营 (DevOps) 巨头于 2018 年首次推出 Meltano ,并通过各种迭代最终成为数据集成和转换的开源平台。
就上下文而言,现代数据堆栈通常包含从摄取到仓储的各种工具,使公司能够获取原始数据,在系统之间移动它,并将其转换为更可用的格式,以便查询以生成洞察力。这些数据可以在到达数据仓库之前进行转换,这个过程被称为“提取、转换、加载”(ETL)——这通常被视为“老派”的做事方式,有时存储更昂贵,转换数据可能会非常缓慢。
现代的替代方案是通过 ELT 直接从仓库按需转换数据,这更快,但它需要更多的处理能力,例如由 Databricks、Snowflake、Google 的 BigQuery 和 Amazon 的 Redshift 等现代基于云的数据仓库提供的处理能力.
“[旧的 ETL 方式] 的一个巨大挑战是,如果您的业务逻辑或转换必须改变,您必须再次重新提取所有数据,这会减慢实现价值的时间,”Meltano 首席执行官 Douwe Maan 告诉 VentureBeat。“随着更便宜的存储解决方案和更广泛的‘大数据’的出现,ELT 模式变得更加普遍。”
那么 Meltano 究竟做了什么?
假设一家公司的数据分布在各种 CRM、营销、客户支持和产品分析工具中。汇集这些数据可能会让他们产生消费者购买趋势和洞察力,而这在他们自己的个人数据孤岛中是不可能的。但要实现这一点,公司必须将这些数据合并到一个集中存储库(即数据仓库)中,并将其转换为一种更易于分析的格式。或者在另一个用例中,公司可能只是想将数据库从 MongoDB 迁移到 PostgreSQL。
从本质上讲,这就是 Meltano 所实现的——它通过查询数据库或 SaaS 应用程序来实现数据“提取”;通过将数据转换到仓库或文件存储系统来“加载”;以及通过重组它的“转型”。
OSS企业
那里不乏专有数据集成工具,例如Google 拥有的 Alooma和由VC 支持的 Matillion。然而,作为一个独立于 GitLab的社区驱动的开源项目,Meltano 希望为数据工程领域带来一个更灵活、适应性和可扩展性更强的平台,该平台可以托管在用户想要的任何地方并通过他们自己的编排工具或通过 Meltano 的基于 Web 的界面。
“现在大多数解决方案都是付费游戏,这限制了有多少公司可以使用高质量的工具,”马恩说。“专有还意味着您将不得不依赖供应商为您可能关心的每个来源添加提取和加载功能,其中可能有几十个。开源意味着大型社区可以更好地为长尾集成服务,因为供应商通常只支持大约 150 个。”
此外,作为一个开源项目,Meltano 几乎可以被任何人用于任何目的,从业余爱好者到数十亿美元的企业。“我们已经看到其他人将它用于个人数据用例,例如在个人财务应用程序之间移动数据以跟踪支出,”马恩补充道。
尽管 Meltano 本身就是一个开源平台(在 MIT 许可下发布),但它实际上依赖于包括Singer在内的许多其他开源工具,它正在着手成为编写数据集成的“开源标准”带有数百个预建连接器的脚本;dbt,一个用于数据转换的命令行工具;和用于编排的Apache Airflow。很快,Meltano 也将依靠Apache Superset进行数据可视化。
附带说明一下,Dbt Labs——维护开源 dbt 项目并将其货币化的公司——就在今天宣布了一笔 1.5 亿美元的资金,这纯粹是为了 ELT 的“转型”部分。这为 Meltano 正在进入的市场规模提供了一些迹象。虽然 Meltano 专注于整个数据生命周期,但其最初的重点将集中在数据集成旅程的前两个阶段。
“更广泛的数据专业人士开始了解开源对于提高灵活性和可扩展性的价值,以及对于知识交流的开源社区,”Maan 继续说道。“Dbt 是一种数据转换工具,是该领域的先驱,因为他们拥有出色的开源产品以及强大的社区。我们相信这对于数据生命周期的所有部分都是可能的,我们非常关注任何数据旅程的开始阶段——提取和加载。”
摇钱树
该公司作为一家独立企业正式启动,伴随着由 GV 领投的 420 万美元种子轮融资,以及 WordPress 创始人 Matt Mullenweg 的天使投资;早期的谷歌投资者和创始董事会成员 Ram Shriram;和 Max Beauchemin,他创建了 Apache Airflow 和 Superset。
作为一家风险投资支持的企业,将 Meltano 转变为类似于无数其他商业开源公司的赚钱企业将面临一些压力。不过,就目前而言,Meltano 专注于与社区合作和发展社区,并推动 Meltano 和 Singer 成为“解决数据集成和一般数据生命周期挑战的最喜欢的工具”,根据 Maan 的说法。
“最终,我们计划提供 SaaS 解决方案和具有附加功能的企业版,类似于 GitLab 使用基于买方的开放核心模型的方式,”Maan 补充道。
至于 GitLab,为什么它首先要分拆 Meltano——它肯定可以在一家以开发人员为中心的成熟公司的支持下蓬勃发展?根据 Maan 的说法,这归结为优先级——GitLab 和 Meltano 有非常不同的用户和用例。此外,随着 GitLab准备成为一家上市公司,而 Meltano 才真正开始其旅程,这两个实体是天壤之别。
“主要原因是 GitLab [如此] 专注于为整个 DevOps 生命周期构建单个应用程序,我们没有看到 Meltano 成为其中的一部分,因为市场和目标受众非常不同,”Maan 解释说,“随着 Meltano 的成长,很明显,这两种产品最好由他们自己的组织提供服务,而不是让 GitLab 试图涵盖两者。这些产品也处于非常不同的开发和增长阶段,Meltano 需要能够像初创公司一样运营,以尽快进入市场。”
虽然 Meltano 还没有任何付费企业客户,但 Maan 表示,他预计该项目的两个现有用户——GitLab 和 Netlify——将在未来成为付费客户。