Together AI推出Instant Clusters:自动化GPU集群服务全面上线,大幅降低AI基础设施门槛
Together AI的Instant Clusters服务通过单一API提供从8个GPU到数百个处理器的集群访问,支持英伟达最新硬件,预装全套软件栈,使AI模型训练和推理的集群配置从数天缩短至分钟级。
2025年9月10日,专注于人工智能模型开发和部署云服务的初创公司Together Computer Inc.(运营名称为Together AI)宣布,其自动化GPU集群配置服务Instant Clusters正式全面上线。这项服务旨在通过单一API接口,为开发者提供从小型单节点系统到大型多节点系统的GPU集群访问,极大简化了AI基础设施的部署和管理流程。
此次推出的Instant Clusters服务支持英伟达最新硬件,包括Hopper和Blackwell GPU,并针对分布式训练和弹性推理等应用场景进行了专门优化。该服务的全面上线标志着AI云计算领域向更加自动化和便捷化的方向迈出了重要一步。
01 服务核心:从单节点到大规模集群的灵活访问
Instant Clusters服务的核心特点是提供了极其灵活的GPU集群访问能力。通过单一的应用程序编程接口(API),客户可以访问规模从配备8个GPU的单节点系统到拥有数百个处理器的大型多节点系统不等的GPU集群。
这种设计使得不同规模的AI项目都能找到合适的计算资源:小规模创业公司可以从较小的集群起步,而大型研究机构和企业则可以部署大规模集群进行复杂模型训练和推理。
服务支持英伟达最新硬件,包括Hopper和Blackwell GPU架构,这些是目前AI计算最先进的硬件平台。特别是Blackwell GPU,作为英伟达最新推出的计算平台,在大模型训练和推理方面具有显著优势。
02 技术优化:专为AI工作负载设计的集群架构
Instant Clusters并非简单的硬件堆叠,而是针对AI工作负载进行了深度优化。服务针对分布式训练和弹性推理等应用场景进行了特别设计,确保了在运行大型语言模型和其他AI工作负载时的高效性能。
集群预装了完整的软件栈,包括驱动程序、调度器和网络组件,具体包括GPU Operator、英伟达网络操作器和InfiniBand互连等。该公司表示,手动配置这些组件通常需要数天时间,而Instant Clusters将其缩短到了几分钟。
Together AI首席产品官Charles Zedlewski指出:“GPU基础设施的整个虚拟化和自动化堆栈与我们长期熟悉的x86 CPU基础设施的等效堆栈存在显著差异。云计算提供商花费了20年时间微调CPU基础设施,但仍在学习如何针对AI进行优化。”
03 功能增强:基于用户反馈的多项改进
Instant Clusters服务自初夏开始进行内测,正式版本根据用户反馈加入了多项更新功能。这些增强功能包括改进的自动扩缩容功能、动态扩展预留基础设施的能力,以及对基础设施即代码工具Skypilot和Terraform的支持。
Zedlewski特别强调了Terraform支持的重要性:“我们添加了Terraform支持,让用户能够围绕这些GPU集群构建自己的自动化系统。我们还增加了重新创建集群并使用原始数据和存储重新挂载的功能。”
这种重新挂载功能特别适合间歇性训练工作负载,用户可以在大规模模型开发中常见的长时间周期内暂停和恢复训练任务。这对于需要频繁调试和迭代的AI模型开发尤其有价值。
04 质量保障:集群可用前的全面测试
为确保服务质量,Together AI在集群交付前会执行严格的测试流程。公司表示,在集群可用前会执行硬件检查、压力测试和节点间通信验证,确保用户获得的每个集群都处于最佳状态。
Zedlewski详细解释了这一过程:“如果你配置了一个8节点、64GPU的集群,我们基本上会在每个节点出现在你的环境中之前对其进行预测试。”这种前瞻性的测试方法可以避免用户在使用过程中遇到硬件兼容性或性能问题。
Instant Clusters针对Kubernetes、Slurm和其他编排工具进行了优化,满足了不同用户群体的技术偏好。客户还可以锁定特定的驱动程序和英伟达Cuda版本,并重复使用自定义容器镜像,这大大简化了训练和推理阶段的可重现性。
05 存储与计算:独立扩展的架构设计
在存储架构上,Instant Clusters采用了计算与存储分离的设计。存储可以按需挂载到集群,虽然用户必须使用Together AI的POSIX兼容并行文件系统,但存储和计算可以独立扩展,提供了更大的灵活性。
这种设计允许用户根据实际需求独立调整计算资源和存储容量,避免了传统一体式架构中资源浪费的问题。对于需要处理大量训练数据或生成大量推理结果的项目来说,这种弹性设计尤其重要。
06 定价模式:灵活的成本控制方案
Instant Clusters提供了多种定价模式以适应不同用户的需求。服务根据使用时长支持可变定价模式,提供小时、日和多月承诺选项。
具体价格方面,低端英伟达HGX H100推理集群根据客户的频次承诺,价格从每小时1.76美元到2.39美元不等。英伟达高端HGX B200长期承诺价格为每小时4美元,按需使用价格为每小时5.50美元。
这种分层定价策略使得不同预算规模的项目都能找到适合自己的方案。短期项目可以选择按小时计费,而长期项目则可以通过承诺使用多月获得更优惠的价格。
07 市场定位:挑战传统云服务提供商
Together AI的Instant Clusters服务直接挑战的是传统云计算提供商在AI基础设施领域的地位。Zedlewski表示:“大多数组织很难通过自建基础设施来匹配这种成本效率:如果有人试图自行构建,我会感到非常惊讶。”
事实上,Together AI近年来发展迅速,在2025年2月完成的B轮融资中获得了3.05亿美元投资,估值达到33亿美元,投资者包括General Catalyst、Prosperity7 Ventures、Salesforce Ventures和英伟达等知名机构。
该公司的主要业务模式是提供AI算力服务,包括GPU硬件出租和AI训练与推理所需的软件服务。其主要产品包括AI模型推理、微调、定制、GPU出租以及模型API服务。
08 技术支持:顶尖团队与创新技术
Together AI的技术实力来自其强大的研发团队。公司由连续创业者和大学教授共同创建,包括Vipul Ved Prakash(曾创建被苹果收购的Topsy)、Ce Zhang(苏黎世联邦理工学院计算机科学副教授)、Percy Liang(斯坦福大学计算机科学教授)和Chris Re(SambaNova联合创始人)。
公司还聘请了Tri Dao作为首席科学家,他是FlashAttention技术的创造者,该技术可以将大型语言模型的训练和微调速度提高最多4倍。这项技术已被OpenAI、Anthropic、Meta和Mistral等公司广泛使用。
在技术创新方面,Together AI推出了多项领先技术,如使用FlashAttention-2的训练速度比标准PyTorch快9倍,推理引擎比TGI或vLLM快3倍,这些技术优势为其服务提供了强有力的技术支持。
09 生态系统:拥抱开源模型与开放生态
Together AI一直积极拥抱开源生态系统。该公司平台支持超过200个开源模型,包括Meta Platforms Inc.的Llama和中国人工智能初创公司DeepSeek的模型。
特别是在DeepSeek模型方面,Together AI表现出了高度重视。该公司不仅将DeepSeek的模型列入其Top 10款模型列表(其中DeepSeek占3款),还下调了平台上DeepSeek-R1的API价格,目前每百万输入token只需3美元,每百万输出token仅需7美元。
该公司甚至表示致力于打造运行DeepSeek-R1的最佳平台,认为开源模型如DeepSeek-R1和Meta的Llama已成为专有解决方案的强大替代品,这标志着AI领域的决定性转变。
10 市场影响:降低AI开发门槛
Instant Clusters的推出将进一步降低AI开发的门槛,使更多企业和开发团队能够访问先进的AI计算资源,而不需要大量前期投资和专门的基础设施团队。
随着企业对AI需求的增长,Together AI正在快速发展。据一位要求匿名讨论私人信息的知情人士透露,该初创公司最近的年化收入超过了1亿美元,较2024年2月的3000万美元年化收入大幅增长。
该公司计划利用新融资部分将其160人的员工队伍在2025年底前翻倍。值得注意的是,公司将专业知识置于任期之上,并为短期项目雇佣专家,而不是依赖全职员工,这种灵活的人力资源策略有助于提高运营效率。
Instant Clusters服务的全面上线,标志着AI云计算领域正朝着更加自动化、便捷化的方向发展。通过提供即插即用的GPU集群解决方案,Together AI正在消除AI开发中的基础设施障碍,让开发者能更专注于模型和算法本身,而非底层硬件配置。
随着AI技术的不断普及和需求的持续增长,像Instant Clusters这样的服务将会成为推动整个行业发展的重要力量。它不仅降低了AI研发的门槛,也为更多创新应用的出现提供了可能,最终将加速人工智能技术在各行各业的广泛应用和落地。