© 2026FindAgent  · @simprr
返回列表
F

FedML-AI/FedML

FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, TensorOpera AI (https://TensorOpera.ai) is your generative AI platform at scale.

ai-agentdeep-learningdistributed-trainingedge-aifederated-learninginference-enginemachine-learningmlopsmodel-deploymentmodel-servingon-device-training
⭐

4.0k

Stars

🔱

768

Forks

👁

92

Watchers

📋

145

Issues

PythonApache-2.0创建于 2020/7/21更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

FEDML 开源项目:一个用于在任何地点、任何规模下进行训练和部署的统一且可扩展的机器学习库

由 TensorOpera AI 提供支持:您的大规模生成式 AI 平台 (https://TensorOpera.ai)

TensorOpera 文档:https://docs.TensorOpera.ai

TensorOpera 主页:https://TensorOpera.ai/
TensorOpera 博客:https://blog.TensorOpera.ai/

加入社区: Slack: https://join.slack.com/t/fedml/shared_invite/zt-havwx1ee-a1xfOUrATNfc9DFqU~r34w
Discord: https://discord.gg/9xkW8ae6RV

TensorOpera® AI (https://TensorOpera.ai) 是面向 LLM(大语言模型)和生成式 AI 的新一代云服务。它帮助开发者能够在去中心化 GPU、多云环境、边缘服务器和智能手机上轻松、经济且安全地启动复杂的模型训练、部署和联邦学习。

TensorOpera AI 与 TensorOpera 开源库高度集成,为三个相互关联的 AI 基础设施层提供了全面的支持:易于使用的 MLOps、管理完善的调度器,以及用于在 GPU 云上运行任何 AI 任务的高性能 ML 库。

上图展示了一个典型的工作流。当开发者想要在 Studio 或 Job Store 中运行预构建的任务时,TensorOpera® Launch 会迅速将 AI 任务与最经济的 GPU 资源进行匹配,自动配置并轻松运行任务,从而免去了复杂的环境设置和管理。在运行任务时,TensorOpera® Launch 会针对不同的集群拓扑和配置协调计算平面,从而使任何复杂的 AI 任务(无论是模型训练、部署还是联邦学习)都能顺利进行。TensorOpera® Open Source 是用于在任何地点、任何规模下运行这些 AI 任务的统一且可扩展的机器学习库。

在 TensorOpera AI 的 MLOps 层:

  • TensorOpera® Studio 拥抱生成式 AI 的力量!您可以访问主流的开源基础模型(如 LLM),利用特定数据无缝微调它们,并使用 GPU 市场上的 TensorOpera Launch 进行可扩展且经济高效的部署。
  • TensorOpera® Job Store 维护着一系列用于训练、部署和联邦学习的预构建任务列表。我们鼓励开发者使用自定义数据集或模型在更具性价比的 GPU 上直接运行这些任务。

在 TensorOpera AI 的调度器层:

  • TensorOpera® Launch 迅速将 AI 任务与最经济的 GPU 资源匹配,自动配置并轻松运行任务,消除复杂的环境设置与管理。它支持多种面向生成式 AI 和 LLM 的计算密集型任务,例如大规模训练、Serverless 部署和向量数据库搜索。TensorOpera Launch 还支持本地(on-prem)集群管理以及在私有云或混合云上的部署。

在 TensorOpera AI 的计算层:

  • TensorOpera® Deploy 是一个具有高可扩展性和低延迟的模型服务平台。
  • TensorOpera® Train 专注于大型和基础模型的分布式训练。
  • TensorOpera® Federate 是一个联邦学习平台,由最流行的联邦学习开源库和全球首个 FLOps(联邦学习运维)提供支持,提供在智能手机和跨云 GPU 服务器上的端侧训练能力。
  • TensorOpera® Open Source 是用于在任何地点、任何规模下运行这些 AI 任务的统一且可扩展的机器学习库。

贡献

FedML 的发展得益于开源社区。我们欢迎社区贡献任何形式的代码和想法。向我们所有了不起的贡献者致敬! FedML 已采用 Contributor Covenant 行为准则。

贡献者
fchelRazwM
项目信息
默认分支master
LicenseApache License 2.0
创建时间2020/7/21
最近更新今天
GAI 中文摘要

FedML 是一个统一且可扩展的机器学习库,旨在解决大规模分布式训练、模型部署及联邦学习在异构计算环境下的实施难题。该项目通过提供高度集成的基础设施,帮助开发者在云端、私有集群及边缘设备上高效运行各类人工智能任务。

支持跨云、本地集群及边缘设备的分布式模型训练,显著降低计算环境配置复杂度。

内置高效的模型推理引擎,提供可扩展且低延迟的模型服务化部署方案。

提供联邦学习全栈支持,确保在保护数据隐私的前提下实现跨设备或跨节点的协作学习。

具备智能化的跨云调度器功能,能够自动匹配最优算力资源,实现 AI 任务的自动化配置与调度。

配套 MLOps 工具集及预构建的任务库,支持快速访问开源大模型并进行定制化微调与生产级部署。

适用于需要处理大规模生成式 AI 和大语言模型任务的开发者及科研人员,特别适合在跨云、私有云或边缘计算资源上进行高效模型开发与部署的使用场景。