FedML-AI/FedML

FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, TensorOpera AI (https://TensorOpera.ai) is your generative AI platform at scale.

ai-agentdeep-learningdistributed-trainingedge-aifederated-learninginference-enginemachine-learningmlopsmodel-deploymentmodel-servingon-device-training

GAI 中文摘要

FedML 是一个统一且可扩展的机器学习开源库，旨在简化大规模分布式训练、模型推理与联邦学习的开发流程。它通过提供跨云调度与基础设施支持，帮助开发者在各类 GPU 云、边缘服务器及本地集群上高效、经济地运行复杂的 AI 任务。

支持大规模分布式训练与模型部署，确保 AI 任务在异构资源上的高性能运行。提供联邦学习框架，实现数据不出本地的安全分布式模型训练与优化。内置跨云调度器，能够自动分配最具性价比的 GPU 资源并简化环境配置。具备高性能的模型推理引擎，支持大规模高并发、低延迟的模型服务部署。集成 MLOps 工具链，涵盖了从模型训练、调优到工程化落地的全生命周期管理。

适用于希望在多云或边缘计算环境下进行大规模 AI 模型训练、微调与推理部署的企业开发者及科研团队。该项目特别适合需要解决分布式资源调度难题，或在大规模生成式 AI 与联邦学习场景下寻找高效基础设施方案的用户。

⭐

4.0k

Stars

🔱

768

Forks

👁

Watchers

📋

147

Issues

PythonApache-2.0创建于 2020/7/21更新于 2 天前

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

FEDML 开源项目：一个用于在任何规模下随处运行训练和部署的统一且可扩展的机器学习库

由 TensorOpera AI 支持：您的规模化生成式 AI 平台 (https://TensorOpera.ai)

TensorOpera 文档：https://docs.TensorOpera.ai

TensorOpera 主页：https://TensorOpera.ai/
TensorOpera 博客：https://blog.TensorOpera.ai/

加入社区： Slack: https://join.slack.com/t/fedml/shared_invite/zt-havwx1ee-a1xfOUrATNfc9DFqU~r34w
Discord: https://discord.gg/9xkW8ae6RV

TensorOpera® AI (https://TensorOpera.ai) 是面向 LLM（大语言模型）和生成式 AI 的下一代云服务。它帮助开发者在去中心化 GPU、多云环境、边缘服务器和智能手机上轻松、经济且安全地启动复杂的模型训练、部署和联邦学习。

TensorOpera AI 与 TensorOpera 开源库高度集成，为三个相互关联的 AI 基础设施层提供全面支持：用户友好的 MLOps、管理完善的调度器，以及用于在 GPU 云上运行任何 AI 任务的高性能 ML 库。

上图展示了一个典型的工作流。当开发者想要在 Studio 或 Job Store 中运行预构建的任务时，TensorOpera® Launch 会迅速为 AI 任务匹配最经济的 GPU 资源，自动进行配置并轻松运行任务，从而消除了复杂的环境设置和管理。在运行任务时，TensorOpera® Launch 会在不同的集群拓扑和配置中编排计算平面，无论是在模型训练、部署还是联邦学习方面，都能支持任何复杂的 AI 任务。TensorOpera® Open Source 是一个统一且可扩展的机器学习库，用于在任何规模下随处运行这些 AI 任务。

在 TensorOpera AI 的 MLOps 层：

TensorOpera® Studio 拥抱生成式 AI 的力量！访问热门的开源基础模型（如 LLM），使用您的特定数据无缝微调它们，并利用 GPU 市场上的 TensorOpera Launch 进行可扩展且经济高效的部署。
TensorOpera® Job Store 维护着一个预构建任务列表，涵盖训练、部署和联邦学习。我们鼓励开发者直接使用自定义数据集或模型，在更便宜的 GPU 上运行这些任务。

在 TensorOpera AI 的调度层：

TensorOpera® Launch 迅速为 AI 任务匹配最经济的 GPU 资源，自动进行配置并轻松运行任务，消除了复杂的环境设置和管理。它支持一系列针对生成式 AI 和 LLM 的计算密集型任务，如大规模训练、Serverless 部署和向量数据库搜索。TensorOpera Launch 还促进了本地集群管理以及在私有云或混合云上的部署。

在 TensorOpera AI 的计算层：

TensorOpera® Deploy 是一个具有高可扩展性和低延迟的模型服务平台。
TensorOpera® Train 专注于大规模基础模型的分布式训练。
TensorOpera® Federate 是一个联邦学习平台，由最受欢迎的联邦学习开源库和全球首个 FLOps（联邦学习运维）支持，提供在智能手机和跨云 GPU 服务器上的设备端训练。
TensorOpera® Open Source 是一个统一且可扩展的机器学习库，用于在任何规模下随处运行这些 AI 任务。

贡献

FedML 通过开源拥抱并繁荣发展。我们欢迎来自社区的各种形式的贡献。向我们所有了不起的贡献者致敬！ FedML 已采用 Contributor Covenant 行为准则。