トランスクリプション・ジョブを作成します

1つ以上のメディア・ファイルを音声サービスのテキスト・ファイルに変換するジョブを作成して送信します。

始める前に

  • トランザクションするメディア・ファイルをオブジェクト・ストレージ・バケットに格納します。

  • WhisperモデルとOracle ASRモデルをトランスクリプション・ジョブ作成用に比較するには、「WhisperモデルとOracle ASRモデルの比較」を参照してください。

ウィスパー・モデルとOracle ASRモデルの比較

WhisperモデルとOracle ASRモデルを比較して、トランスクリプション・ジョブを作成します。

Speechは、ネイティブのOracle ASR音声モデルに加えて、OpenAIのWhisperモデルをサポートしています。Whisperは、ウェブから収集された多言語データの大規模なコーパスで訓練され、50以上の言語のファイルベースの音声からテキストへの転写をサポートしています。このモデルでは、Oracle ASRモデルと同じサービス・エンドポイントとAPIおよびSDKインタフェースを使用して、柔軟性と互換性を実現します。また、Whisperモデルでは、ダイアライゼーションを使用して、録音中の個々のスピーカーにラベルを付けます。

WhisperモデルとOracle ASRモデルの次の比較を使用して、トランスクリプション・ジョブの作成時に正しいモデルを選択します。

機能 Oracle ASRモデル OCI Speechのウィスパー・モデル
リアルタイムのトランスクリプション サポート はサポートされていません
大きいファイル・サイズ 最大2 GB 最大2 GB
Wordレベルのタイムスタンプ サポート サポート
ファイル形式 AAC、AC3、AMR、AU、FLAC、M4A、MKV、MP3、MP4、OGA、OGG、WAV、WEBM AAC、AC3、AMR、AU、FLAC、M4A、MKV、MP3、MP4、OGA、OGG、WAV、WEBM
多言語サポート 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語およびヒンディー語 Oracle ASRモデルとその他の50言語と同じ*
ダイアライゼーション サポート サポート

* OpenAI Whisperに関するよくある質問

  • トランスクリプション・ジョブを作成するには、次のステップを実行します。
    1. ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「AIサービス」で、「音声」をクリックします。
    2. 左側のナビゲーション・メニューで、「トランスクリプション・ジョブ」をクリックします
    3. 「スコープのリスト」で、作業するコンパートメントを選択します。
    4. 「ジョブの作成」をクリックします。
    5. 基本情報ページで、プロジェクトの一意の名前(255文字の制限)を入力します。名前には、任意の順序で1つ以上の英数字、ダッシュまたはアンダースコアを含める必要があります。名前を指定しない場合、名前は自動生成されます。

      たとえば:

      AiSpeechTranscriptionJob20220804134759

    6. (オプション)ジョブの説明(400文字の制限)を入力します。
    7. ジョブを作成するコンパートメントを選択します(表示されているコンパートメントと異なる場合)。
    8. 「入力」で、転送するメディア・ファイルを含むデータ入力バケットを選択します。

      目的のバケットが選択したコンパートメントにない場合は、コンパートメントを変更します。

    9. 「出力」で、入力バケットまたは別のバケットに出力ファイルを格納する場所を選択します。別のバケットを使用するには、そのバケットを選択します。
    10. (オプション)バケット内のファイルを区切ってソートするための出力接頭辞を入力します。

      たとえば、コール・センターのメディア・ファイルにcall_ctrと入力できます。

      スラッシュ(/)を使用して、バケットに出力フォルダを作成することもできます。たとえば、MyResults/は、トランスクリプションされたすべてのファイルをバケットのMyResultsフォルダに格納します。

    11. 作成するジョブのモデル・タイプを選択します。
      ノート

      使用するモデル・タイプを確認するには、「ウィスパー・モデルとOracle ASRモデルの比較」を参照してください。
    12. 前のステップでウィスパー・モデルを選択した場合は、モデル・サブタイプを選択します。使用していない場合は次のステップに進みます。
    13. メディアファイルの言語を選択します。

      適切な言語を言語または言語コードで検索できます(Oracleモデルの場合)。デフォルトは米国英語です。

    14. (オプション)SRT形式とJSON形式の両方をトランスクリプションに含めるには、「SRTトランスクリプション形式の取得」を選択します。
    15. トランスクリプションを句読点にしない場合は、「句読点の有効化」をクリアします。
      ノート

      「句読点の有効化」はウィスパー・モデルに対して選択されており、クリアできません。
    16. (オプション)入力ファイルでスピーカーを識別するには、「ダイアライゼーションの有効化」を選択します。

      Speechサービスが入力ファイル内の一意のスピーカーの数を自動的に検出するようにしたり、番号を入力したりできます。スピーカーの最小数は2で、最大数は16です。

      ノート

      ダイアライゼーションを使用すると、トランスクリプション・タスクのレイテンシが増加します。そのため、このオプションはデフォルトで無効になっています。

    17. フィルタを追加して出力ファイルの生成方法を変更するには、「フィルタの追加」をクリックします。
      1. フィルタ・タイプを選択します。プロファニティがデフォルトです。
      2. フィルタ・モードを選択します。

        たとえば、プロファイルフィルタは、次のモードを提供します。

        • マスク: 検出されたすべての不正行為は、最初の文字を除き、アスタリスクで転写中にマスクされます。

        • 削除: 検出されたプロファニティーは、トランスクリプションで1個のアスタリスクに置き換えられます。

        • タグ: プロファニティはマスクも削除もされませんが、トランスクリプションではTYPE: "Profanity"としてマークされます。

    18. (オプション)「拡張オプションの表示」をクリックして、タグをジョブに割り当てます。タグは、タグ・ネームスペースを選択してキーおよび値を入力することで、リソースを簡単に検索およびトラッキングするのに役立ちます。

      タグ付けに関する項では、コスト・トラッキング・タグなど、リソースの整理および検索に使用できる様々なタグについて説明します。

    19. 「次へ」をクリックして、ジョブのファイルを選択します。
    20. 転送するメディア・ファイルのチェック・ボックスを選択するか、「名前」の横にあるチェック・ボックスを選択してすべて選択します。
      ノート

      • 最大ファイル・サイズは、2 GBです。

      • ファイル期間は最大4時間です。

    21. 「発行」をクリックしてジョブを開始します。

      ジョブは、選択したファイルのサイズと数に応じて、秒または時間単位で実行できます。実行中、ジョブは進行中状態であり、終了時に成功または失敗に変わります。ジョブを選択して、その詳細ページに移動できます。

      • ジョブは、最大100個のタスクを持つことができます。

      • ジョブは90日間保持されます。

  • トランスクリプションジョブを作成するには、createコマンドと必要なパラメータを使用します。

    oci speech transcription-job create [OPTIONS]

    機密情報を入力しないでください。

    CLIコマンドのフラグおよび変数オプションの完全なリストは、CLIコマンドライン・リファレンスを参照してください。

  • ジョブを作成するには、CreateTranscriptionJobおよびChangeTranscriptionJobCompartment操作を使用します。