トランスクリプション・ジョブを作成します
1つ以上のメディア・ファイルを音声サービスのテキスト・ファイルに変換するジョブを作成して送信します。
始める前に
-
トランザクションするメディア・ファイルをオブジェクト・ストレージ・バケットに格納します。
-
WhisperモデルとOracle ASRモデルをトランスクリプション・ジョブ作成用に比較するには、「WhisperモデルとOracle ASRモデルの比較」を参照してください。
ウィスパー・モデルとOracle ASRモデルの比較
WhisperモデルとOracle ASRモデルを比較して、トランスクリプション・ジョブを作成します。
Speechは、ネイティブのOracle ASR音声モデルに加えて、OpenAIのWhisperモデルをサポートしています。Whisperは、ウェブから収集された多言語データの大規模なコーパスで訓練され、50以上の言語のファイルベースの音声からテキストへの転写をサポートしています。このモデルでは、Oracle ASRモデルと同じサービス・エンドポイントとAPIおよびSDKインタフェースを使用して、柔軟性と互換性を実現します。また、Whisperモデルでは、ダイアライゼーションを使用して、録音中の個々のスピーカーにラベルを付けます。
WhisperモデルとOracle ASRモデルの次の比較を使用して、トランスクリプション・ジョブの作成時に正しいモデルを選択します。
機能 | Oracle ASRモデル | OCI Speechのウィスパー・モデル |
---|---|---|
リアルタイムのトランスクリプション | サポート | はサポートされていません |
大きいファイル・サイズ | 最大2 GB | 最大2 GB |
Wordレベルのタイムスタンプ | サポート | サポート |
ファイル形式 | AAC、AC3、AMR、AU、FLAC、M4A、MKV、MP3、MP4、OGA、OGG、WAV、WEBM | AAC、AC3、AMR、AU、FLAC、M4A、MKV、MP3、MP4、OGA、OGG、WAV、WEBM |
多言語サポート | 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語およびヒンディー語 | Oracle ASRモデルとその他の50言語と同じ* |
ダイアライゼーション | サポート | サポート |
トランスクリプション・ジョブを作成するには、次のステップを実行します。 トランスクリプションジョブを作成するには、createコマンドと必要なパラメータを使用します。
oci speech transcription-job create [OPTIONS]
機密情報を入力しないでください。
CLIコマンドのフラグおよび変数オプションの完全なリストは、CLIコマンドライン・リファレンスを参照してください。
ジョブを作成するには、CreateTranscriptionJobおよびChangeTranscriptionJobCompartment操作を使用します。