ライブ文字化の使用

音声サービスでライブ・トランスクリプション・ジョブを作成および管理します。

ライブ・トランスクリプション機能では、リアルタイム・トランスクリプションが提供されるため、オーディオ・ストリームを送信してテキスト結果をリアルタイムで受信できます。ヘルスケア、コール・センター、メディアなど、さまざまな業界で多くのユースケースにリアルタイムの転写が必要です。たとえば、医師や看護師は、リアルタイムの能力を必要とし、作業効率を向上させる医療命令を使用しています。ライブ・トランスクリプションのリリースにより、アプリケーションの正確なトランスクリプションを数秒未満で取得できます。埋込みテキスト・ウィンドウを使用してライブ・トランスクリプションを試すか、OCIリアルタイム・トランスクリプション・サービスとプログラム的に統合する方法に関する情報はAPIドキュメントを参照してください。

Live Transcribeジョブの作成

ライブ・オーディオ・ストリームをテキストに変換するSpeechライブ・トランスクリプト・ジョブを作成して送信します。

ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「AIサービス」で、「音声」をクリックします。
左側のナビゲーション・メニューで、「ライブ・トランスクリプション」をクリックします。
「リスト範囲」で、作業するコンパートメントを選択します。
(オプション)「トランスクリプションの構成」セクションで、トランスクリプションをカスタマイズするには、次のオプションの1つ以上に値を選択します:
- ドメインの選択: 使用する音声モデルのドメインを選択します。
- 言語の選択: 翻訳する言語を選択します。
- 句読点: 生成された文字の句読点を構成します。句読点なし(デフォルト値)の場合は「なし」、句読点を自動的に挿入する場合は「自動」、口頭で話す場合は「音声」の3つのオプションを使用できます。
- 部分的な無音しきい値: 音声認識を終了する前に、サービスが音声アクティビティの検出を停止した後、追加の音声を待機する時間をミリ秒単位で入力します。
- 最終サイレントしきい値: サービスがセッションの終了を待機する単語が発信された後のサイレントのミリ秒数を入力します。
- 部分的な結果の安定性: 最新のトークンを新しい部分的な結果の一部として返す前に、それらに必要な信頼度を選択します。
- カスタマイズの有効化: このチェック・ボックスを選択してセッションをカスタマイズします。
  - 使用するカスタマイズを選択します。必要に応じてコンパートメントを変更します。
  - 「エンティティの上書き」をクリックします。複数のエンティティ・リストを含むカスタマイズのみがオーバーライドされます
セッションを開始するには、「セッションの開始」をクリックし、話し始めます。
セッションを停止するには、会話を停止してから「セッションの停止」をクリックします。
(オプション)JSONファイルを表示するには、「JSONの表示」をクリックします。
(オプション)セッションをリセットするには、「リセット」をクリックします。

Oracle Cloud Infrastructureドキュメント

ライブ文字化の使用

Live Transcribeジョブの作成 🔗

Live Transcribeジョブの作成