Xinference

最全面的企业级推理服务平台
Xinference 是针对生成式 AI 场景度身定制的能力全面的推理服务平台。功能覆盖算力、模型和高可用可观测的企业级能力

免费咨询

更多详情

  最全面的企业级推理服务平台
Xinference 是针对生成式 AI 场景度身定制的能力全面的推理服务平台。功能覆盖算力、模型和高可用可观测的企业级能力
满足你所有需求的高性能推理服务平台模型全生命周期管理、多推理引擎、异构 GPU、高吞吐和高可用、高效调度策略
支持的模型丰富提供100+最新开源模型，从文本语音视频到 embedding/rerank 模型，始终保持最快适配。
广泛的硬件支持支持多种硬件平台，支持国产 GPU，包括华为昇腾、海光、天数等。可同时支持多种硬件共同服务
生态丰富多种主流开发框架已经原生支持 Xinference，包括 Langchain、Dify、Ragflow、FastGPT 等
多推理引擎支持优化支持多种主流推理引擎，包括 vLLM、SGLang、TensorRT、Transformers、MLX、LMDeploy 等
分布式高性能原生分布式架构，可轻松水平扩展集群，支持多种调度策略适应低延迟、高上下文、高吞吐等不同场景
更多企业级特性支持用户权限管理、单点登录、批处理、多租户隔离、模型微调、可观测等众多企业级特性

Xinference

满足你所有需求的高性能推理服务平台

支持的模型丰富

广泛的硬件支持

生态丰富

多推理引擎支持

分布式高性能

更多企业级特性

匠心云集

我们的使命：以匠心技术，铸数智未来！