音频 Audio

了解如何将音频转换为文本。OpenAi 中文官方api文档

创建转录 Beta

post https://api.openai.com/v1/audio/transcriptions

将音频转录为输入语言。

请求体

file string 必需的

要转录的音频文件,采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。

model string 必需的

要使用的模型的 ID。 目前只有 whisper-1 可用。

prompt string 可选的

可选文本,用于指导模型的风格或继续之前的音频片段。 提示 应该与音频语言匹配。

response_format string 可选的 默认值:json

成绩单输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。

temperature number 可选的 默认值:0

采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使输出更加集中和确定。 如果设置为 0,模型将使用 对数概率 自动升高温度,直到达到特定阈值。

language string 可选的

输入音频的语言。 以 ISO-639-1 格式提供输入语言将提高准确性和延迟。

请求示例

bash
curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"

Parameters

json
{
  "file": "audio.mp3",
  "model": "whisper-1"
}

响应示例

json
{
  "text": "想象一下您曾经有过的最疯狂的想法,并且您很好奇它如何扩展到 100 倍、1000 倍大的东西。 这是一个你可以做到这一点的地方。"
}

创建翻译 Beta

post https://api.openai.com/v1/audio/translations

将音频翻译成英文。

请求体

file string 必需的

要翻译的音频文件,采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。

model string 必需的

要使用的模型的 ID。 目前只有 whisper-1 可用。

prompt string 可选的

可选文本,用于指导模型的风格或继续之前的音频片段。 提示 应该是英文的。

response_format string 可选的 默认值:json

成绩单输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。

temperature number 可选的 默认值:0

采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使输出更加集中和确定。 如果设置为 0,模型将使用 对数概率 自动升高温度,直到达到特定阈值。

.