音声の概要

音声サービスを使用して、メディア・ファイルをJSONおよびSRT形式で格納されている読取り可能なテキストに変換できます。

スピーチは、音声言語の力を活用することで、人間の音声を含むメディア・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できます。このサービスは、コンソール、REST API、CLIおよびSDKを使用してアクセスできるOracle Cloud Infrastructure (OCI)ネイティブ・アプリケーションです。また、データ・サイエンス・ノートブック・セッションで音声サービスを使用できます。

音声は、自動音声認識(ASR)技術を使用して、文法的に正しい転写を提供します。音声は、忠実度の低いメディア録音を処理し、会議やコールセンター通話などの困難な録音を転写します。Speechを使用すると、オブジェクト・ストレージまたはデータ・アセットに格納されているファイルを、厳密、正規化、タイムスタンプおよびプロファイル・フィルタされたテキストに変換できます。この機能は、音声のみで使用できます。たとえば、データ・レイクを使用して、音声出力(テキスト・ファイル)に索引付けできます。ダウンストリーム・サービスがなければ、この機能は音声には存在しません。

音声エンジン・プロセス(メディアからフロントエンド、結果へのバックエンド)を表示します。

スピーチモデルは、音響環境やレコーディングチャネルに対して堅牢で、これが高品質のトランスクリプションサービスであることを保証します。

言語ごとの複数のメディア形式のサポート

Speechサービスでサポートされるすべての言語では、次のメディア形式がサポートされています。

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM
言語 言語コード サンプル・レート
英語- 米国 en-US >= 8 khz
スペイン語- スペイン es-ES >= 8 khz
ポルトガル語- ブラジル pt-BR >= 8 khz
英語— 英国 en-GB >= 16 khz
英語- オーストラリア en-AU >= 16 khz
英語- インド en-IN >= 16 khz
Hindi-India hi-IN >= 16 khz
フランス語- フランス語 fr-FR >= 16 khz
ドイツ語- ドイツ de-DE >= 16 khz
イタリア語- イタリア it-IT >= 16 khz

最適な結果を得るには:

  • FLACやWAVなどの可逆フォーマットをPCM 16ビットエンコーディングで使用します。
  • 低忠実度のメディアには8,000 Hz、高忠実度のメディアには16,000 - 48,000 Hzのサンプルレートを使用します。

8つのkHzまたは16のkHzサンプル・レートで、シングルチャネルの16ビットのPCM WAVメディア・ファイルを使用できます。メディアのトランスコードには、Audacity (GUI)または FFmpeg (コマンド行)をお勧めします。メディアファイルの最大長は4時間、最大2 GBです。

音声は、入力メディアファイルの品質に敏感です。異なるアクセント、背景のノイズ、ある言語から別の言語への切り替え、融合言語の使用、または同時に複数のスピーカーは、転写の品質に影響を与えます。

音声はこれらの機能を提供します

  • 正確なトランスクリプション - 選択したオブジェクト・ストレージ・バケットに直接書き込まれる正確で使いやすいJSONおよびSubRipサブタイトル(SRT)ファイルを生成します。トランスクリプションを利用してアプリケーションと直接統合し、字幕やコンテンツの検索および分析に使用できます。

  • Whisperモデル-多言語データはWebから収集され、50以上の言語のファイル・ベースの音声からテキストへの転写をサポートします。
  • タイムスタンプ付きJSON—トランスクリプションは、各トークン(単語)のタイムスタンプを提供します。タイムスタンプを使用して、メディア・ファイル内で探しているテキストを検索して検索し、その場所にすばやくジャンプできます。

  • 多言語 - 英語、英語- イギリス、英語- オーストラリア、英語- インド、スペイン語、ポルトガル語、フランス語、イタリア語、ドイツ語、ヒンディー語で正確な文字起こしを生成します。

  • 非同期API - トランスクリプション・タスク・バッチ処理による非同期APIの強化。APIを使用すると、まだ処理されていないジョブを取り消せるため、時間とコストを節約できます。

  • テキストの正規化 - 数値、住所、通貨などのテキストの正規化を提供します。テキストの正規化により、読みやすく理解しやすい人工知能から高品質の転写を得ることができます。

  • プロファニティ・フィルタリング - トランスクリプションから不快な単語を削除、マスクまたはタグ付けできます。

  • 単語当たりの信頼度スコアおよび文字起こし - 生成されたJSONファイルで単語および文字起こし信頼度スコアを生成します。信頼度スコアを使用すると、注意が必要な単語をすばやく識別できます。

  • クローズされたキャプション - SRTファイルを追加の出力形式として提供します。閉じたキャプションをビデオ・ファイルに追加するには、SRTを使用します。

  • 句読点—長いテキストには句読点が必要なため、音声は文字化コンテンツを自動的に句読点にします。

  • Telephoney ready—ファイルは8 kHzまたは16 kHzにでき、それぞれが自動的に検出されるため、正しいモデルが適用されます。この機能を使用すると、電話録音を文字化できます。

  • スピーカーのダイアライゼーション - 患者と比較してサービスプロバイダーを識別することにより、医療オーディオから処方箋を抽出するなど、自然言語理解シナリオを使用して、転写テキストを特定のスピーカーに関連付けます。スピーカのダイアライゼーションは、スピーカーのセグメンテーションとスピーカーのクラスタリングを組み合わせたものです。スピーカーセグメンテーションでは、オーディオストリーム内のスピーカー変更点が検索されます。スピーカーのクラスタリングでは、スピーカの特性に基づいて音声セグメントがグループ化されます。

主な概念

音声サービスの主な概念は次のとおりです。

トランスクリプション・ジョブ

ジョブは、コンソールまたは音声APIからの単一の非同期リクエストです。各ジョブはIDによって一意に識別され、ジョブ・ステータスおよび結果の取得に使用できます。

テナント内のジョブは、最初に厳密な方法で処理されます。各ジョブには、最大100個のタスクを含めることができます。最大タスク数を超えるジョブを発行すると、そのジョブは失敗します。ジョブは90日間保持されます。

ライブでの文字化ジョブ
オーディオストリームをサービスに送信し、結果をテキスト(JSONおよびSRT形式)でリアルタイムで受信できます。
タスク

タスクは、ジョブで処理された単一のファイルの結果です。ジョブには、ジョブに指定するオブジェクト・ストレージ・バケットに格納されている内容に基づいて、複数のタスクを含めることができます。

モデル

Whisperモデルを含む事前訓練された音響および言語モデルは、ジョブ転写プロセスを強化します。

認証と認可

OCIの各サービスは、すべてのインタフェース(コンソール、SDKまたはCLI、およびREST API)で、認証および認可のためにIAMと統合されます。

組織の管理者は、グループコンパートメントおよびポリシーを設定して、どのユーザーがどのサービスおよびリソースにアクセスできるかと、そのアクセス権のタイプを制御する必要があります。たとえば、ポリシーは、新規ユーザーの作成、クラウド・ネットワークの作成と管理、インスタンスの起動、バケットの作成、オブジェクトのダウンロードなどを実行できるユーザーを制御します。詳細は、ポリシーの開始を参照してください。

管理者以外の通常のユーザーが会社所有のOCIリソースを使用する必要がある場合は、管理者に連絡してユーザーIDを設定してください。管理者は、ユーザーが使用する1つ以上のコンパートメントを承認できます。

リソース識別子

Speechサービスは、OCIリソースとしてジョブおよびタスクをサポートします。ほとんどのタイプのリソースには、Oracle Cloud ID (OCID)と呼ばれる、Oracleによって割り当てられた一意の識別子があります。OCIDのフォーマットおよびその他のリソース識別方法の詳細は、リソース識別子を参照してください。

リージョンおよび可用性ドメイン

音声は、すべてのOCI商用リージョンで使用できます。OCIで使用可能なリージョンのリストと、関連する場所、リージョン識別子、リージョン・キーおよび可用性ドメインは、リージョンおよび可用性ドメインについてを参照してください。

ノート

テキスト読み上げは、米国西部(フェニックス)の商用リージョンでのみ使用できます。

アクセス方法

音声には、コンソール(ブラウザベースのインタフェース)、コマンドライン・インタフェース(CLI)またはREST APIを使用してアクセスできます。コンソール、CLIおよびAPIに関する手順は、このガイド全体のトピックに記載されています。

コンソールにアクセスするには、サポートされているブラウザを使用する必要があります。コンソールのサインイン・ページに移動するには、このページ上部のナビゲーション・メニューを開き、「Infrastructureコンソール」をクリックします。クラウド・テナント、ユーザー名およびパスワードの入力を求められます。

使用可能なSDKのリストは、SDKおよびCLIを参照してください。APIの使用に関する一般情報は、REST APIを参照してください。

サービスの制限

テナンシに対して有効になっている各リージョンで、次の制限が適用されます:

ファイル制限

  • 最大ファイル・サイズは、2 GBです。

  • ファイル期間は最大4時間です。

ジョブ制限

  • ジョブは、最大100個のタスクを持つことができます。

  • ジョブは90日間保持されます。

音声変換

テキスト読み上げでは、リクエストごとに最大10000文字がサポートされます。