面向现代数据湖的 RustFS

现代数据湖和数据湖仓一体架构建立在现代对象存储之上。这意味着它们可建立在 RustFS 之上。

RustFS 为现代数据湖/湖仓一体提供统一的存储解决方案，可以在任何地方运行：私有云、公共云、机柜、裸金属 ―― 甚至可以在边缘。是的，快速、可扩展、云原生且随时可用 ―― 内置电池。

数据湖架构

开放表格格式就绪

表格格式

现代数据湖是多引擎的，这些引擎（Spark、Flink、Trino、Arrow、Dask 等）都需要在一个连贯的架构中绑定在一起。现代数据湖必须提供中央表存储、可移植元数据、访问控制和持久结构。这就是 Iceberg、Hudi 和 Delta Lake 等格式发挥作用的地方。它们是为现代数据湖设计的，而 RustFS 支持每一个。我们可能对哪一个会胜出有自己的看法（你随时可以问我们...），但我们致力于支持它们，直到这样做不再有意义（参见 Docker Swarm 和 Mesosphere）。

云原生

RustFS 出生于云端，并基于云原则运行 —— 容器化、编排、微服务、API、基础设施即代码和自动化。正因如此，云原生生态系统与 RustFS "无缝协作" —— 从 Spark 到 Presto/Trino，从 Snowflake 到 Dremio，从 NiFi 到 Kafka，从 Prometheus 到 OpenObserve，从 Istio 到 Linkerd，从 Hashicorp Vault 到 Keycloak。

不要只听我们的说法 —— 输入你最喜欢的云原生技术，让 Google 提供证据。

多引擎

RustFS 支持所有 S3 兼容的查询引擎，也就是说全部支持。没看到你使用的那个？联系我们，我们会进行调查。

多引擎支持

性能

现代数据湖需要具备一定性能水平，更重要的是，需要具备传统 Hadoop 时代通用存储设备所无法想象的规模化性能。RustFS 在多个基准测试中已证明其性能优于 Hadoop，且迁移路径已有详细文档记录。这意味着查询引擎（Spark、Presto、Trino、Snowflake、Microsoft SQL Server、Teradata 等）性能更佳。这同样适用于您的 AI/ML 平台——从 MLflow 到 Kubeflow。

我们公开发布我们的基准测试结果，并确保其可重复性。本文将介绍我们如何仅使用 32 个现成的 NVMe SSD 节点，在 GET 操作上达到 325 GiB/s（349 GB/s），在 PUT 操作上达到 165 GiB/s（177 GB/s）。

轻量

RustFS 的服务器二进制文件整体小于 100 MB。尽管它功能强大得足够健壮可以在数据中心运行，但它同时也足够小巧以至于可以在边缘舒适地运行。在 Hadoop 世界中没有这样的替代方案。对于企业而言，这意味着您的 S3 应用程序可以通过相同的 API 在任何地方访问数据。通过实现 RustFS 边缘位置和复制功能，我们可以在边缘捕获和过滤数据，并将其交付到父集群以进行聚合和进一步的分析实现。

分解

现代数据湖扩展了打破 Hadoop 的分解能力。现代数据湖具有高速查询处理引擎和高吞吐量存储。现代数据湖规模太大，无法适应数据库，因此数据驻留在对象存储中。这样，数据库可以专注于查询优化功能，并将存储功能外包给高速对象存储。通过将数据子集保留在内存中，并利用谓词下推（S3 Select）和外部表等特性，查询引擎具有更大的灵活性。

开源

采用 Hadoop 的企业是出于对开源技术的偏好。作为逻辑上的继承者 —— 企业也希望他们的数据湖是开源的。这就是 Iceberg 兴盛的原因，也是 Databricks 开源 Delta Lake 的原因。

软件能力、无锁定的自由、以及自成千上万用户支持所带来的放心，都具有实实在在的价值。RustFS 也是 100% 开源的，确保组织在投资现代数据湖时能够坚持其目标。

迅速猛增

数据在不断生成，这意味着必须不断进行数据摄取 —— 而又不会造成消化不良。RustFS 就是为这样的世界而构建的，并且可以开箱即用地与 Kafka、Flink、RabbitMQ 以及众多其他解决方案协同工作。其结果是，数据湖/数据湖屋变成了一个可以无缝扩展至艾字节及以上的单一事实来源。

RustFS 拥有多家客户，其每日数据摄入量超过 250PB。

简洁性

简洁并不容易。它需要工作、纪律，最重要的是，承诺。RustFS 的简洁性是传奇的，这是一个哲学上的承诺，使我们的软件易于部署、使用、升级和扩展。现代数据湖不必复杂。有几个部分，我们致力于确保 RustFS 是最易于采用和部署的。

ELT 或 ETL ―― 它只是有效工作

RustFS 不仅适用于所有数据流协议，还适用于所有数据处理管道——所有数据流协议和数据处理管道都与 RustFS 兼容。所有供应商都经过广泛测试，并且通常数据处理管道具有弹性和性能。

弹性

RustFS 通过对每个对象使用内联纠删码来保护数据，这比从未被采用的 HDFS 复制替代方案要高效得多。此外，RustFS 的位腐 (bitrot) 检测确保它永远不会读取损坏的数据 —— 它能动态地捕获并修复对象的损坏数据。RustFS 还支持跨地域 (cross-region) 与主动-主动 (active-active) 的复制。最后，RustFS 支持完整的对象锁定框架，提供法律保留和保留（具有治理和合规模式）。

软件定义

Hadoop HDFS 的继任者并非硬件设备，而是一套运行在通用硬件上的软件。这正是 RustFS 的本质 ―― 软件。与 Hadoop HDFS 类似，RustFS 旨在充分利用通用服务器。由于能够利用 NVMe 驱动器和 100 GbE 网络，RustFS 可以缩小数据中心规模，从而提高运营效率和可管理性。事实上，正在构建替代型数据湖的公司在减少 60% 或更多的硬件占用的同时提升性能、并降低管理它们所需的全职员工（FTEs）。

安全

RustFS 支持多种复杂的服务端加密方案，以保护数据无论其存储于何处，不论数据在传输中还是静止状态。RustFS 的方法确保了机密性、完整性和真实性，且性能开销可以忽略不计。通过支持 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC 的服务器端和客户端加密，确保了应用程序的兼容性。此外，RustFS 还支持业界领先的密钥管理系统（KMS）。

Linux安装

核心概念

存储桶管理

对象管理

IAM管理

SDK

面向现代数据湖的 RustFS

开放表格格式就绪

云原生

多引擎

性能

轻量

分解

开源

迅速猛增

简洁性

ELT 或 ETL ―― 它只是有效工作

弹性

软件定义

安全

面向现代数据湖的 RustFS ​

开放表格格式就绪 ​

云原生 ​

多引擎 ​

性能 ​

轻量 ​

分解 ​

开源 ​

迅速猛增 ​

简洁性 ​

ELT 或 ETL ―― 它只是有效工作 ​

弹性 ​

软件定义 ​

安全 ​

面向现代数据湖的 RustFS

开放表格格式就绪

云原生

多引擎

性能

轻量

分解

开源

迅速猛增

简洁性

ELT 或 ETL ―― 它只是有效工作

弹性

软件定义

安全