这种快速推理能力为以前不可行的应用类型开辟了新的可能性,例如实时创意工具和使用相机作为实时模型输入。
您可以在 fal 的 模型注册表 中找到最快的实时模型。
如何提供最快的实时推理?
我们完成了书中的所有优化。
- fal 构建了自定义基础设施并优化了模型推理,以确保尽快将这些模型提供给最终用户。
- fal 拥有全球分布的 GPU 网络,以确保推理尽可能靠近用户进行。
- 我们在用户和 GPU 之间进行的跳跃非常少。我们的身份验证服务是用 Rust 编写的,并尽可能靠近用户和 GPU 部署在边缘。
- 我们的 websocket 和流媒体客户端提供最高效的客户端/服务器通信。
- 我们仅通过 jwt 令牌进行身份验证,从客户端直接到我们的服务,我们已经与流行的后端框架建立了集成,以方便令牌刷新。
fal 的实时 AI 推理是否已准备好迎接黄金时段?
使用 fal 的实时推理基础设施构建了几个令人惊叹的演示和产品。这些演示在社交媒体上广为流传,每天仍有成千上万的人使用。
其中最受欢迎的两个是 https://drawfast.tldraw.com 和 https://fal.ai/camera。
上次更新时间:2024 年 6 月 21 日