音声

Oracle Android、Oracle iOSおよびOracle Webチャネル用のSDKは、音声認識に統合されているため、ユーザーはスキルやデジタル・アシスタントと直接会話して、適切なレスポンスを取得できます。

音声認識が有効になっている場合は、ユーザー入力フィールドが空になると、送信ボタンがマイクロフォン・ボタンに置き換わります。ユーザーがこのボタンをタップすると、音声の記録が開始されます。音声は、認識のために音声サーバーに送信され、テキストに変換されてからスキルに送信されます。音声が部分的にしか認識されない場合、ユーザー入力フィールドに部分的な結果が表示されるため、ユーザーはそれをスキルに送信する前にクリーン・アップできます

音声がサポートされている言語のリストは、言語別の一般的な機能サポートを参照してください。

Oracle Androidチャネルでの音声の有効化

チャット・ビューでマイクロフォンを有効にするには:

Oracle Androidチャネルを作成して有効にします。
enableSpeechRecognition機能フラグをtrueに設定します。音声認識では、これと他の音声関連のプロパティおよびメソッドについて説明します。

Oracle Webチャネルでの音声の有効化

Webページにレンダリングされるチャット・ウィジェットでマイクロフォンを有効にするには:

Oracle Webチャネルを構成して有効にします。
enableSpeech構成プロパティをtrueに設定します。音声認識では、これと他の音声関連のプロパティおよびメソッドについて説明します。

Oracle iOSチャネルでの音声の有効化

iOSチャット・ビューでマイクロフォンを有効にするには:

Oracle iOSチャネルを構成します。
enableSpeechRecognition機能フラグをtrueに設定します。音声認識では、これと他の音声認識のプロパティおよびメソッドについて説明します。

拡張音声によるASRの向上

スキルのトレーニング・データに、アプリケーション固有またはスキル固有の多くの単語やフレーズ、業界用語、固有名詞、または特異なスペルや発音の単語が含まれている場合、拡張音声モデルを使用すると、これらの正しい認識および文字変換の確率を高めることができます。

ノート

拡張音声を使用できるのは、英語を話すユーザー向けの英語のスキル(英語のトレーニング・データを含む)のみです。

拡張音声モデルを構築するには:

「設定」で「拡張音声」を選択します。
スキルを再トレーニングします。
Oracle Web、iOSまたはAndroidクライアント・チャネルをスキルにルーティングします。

ヒント:
拡張音声モデルは、バージョン20.12以降で開発されたスキルでのみ使用できます。拡張音声モデルを使用するには、スキルを20.12にアップグレードする必要があります。

このオプションを選択すると、音声認識システムによって、スキルのインテントとエンティティ・データ(発話、エンティティ値、カスタム・エンティティ値と動的エンティティ値の両方のシノニム、およびインテントに関連付けられたシステム・エンティティ)に基づく拡張音声モデルが構築されます。拡張音声モデルは、スキルを再トレーニングするたびに更新されます(または、現在のリリースの場合と同様に、動的エンティティAPIからのファイナライズされたプッシュ・リクエスト後にスキルが再トレーニングされるたびに更新されます)。

ユーザーがOracle Web、iOSまたはAndroidクライアント・チャネルを介して音声リクエストを発行すると、音声ランタイムは、チャネルにルーティングされるスキルのカスタム言語モデルを動的に取得します。チャネルがデジタル・アシスタントを指している場合、チャネルは「拡張音声の有効化」が有効になっているスキルごとにカスタム言語モデルをプルします。デジタル・アシスタントに登録されている個々のスキルで、この設定のオンとオフを切り替えることができます。

Oracle Cloud Infrastructureドキュメント

音声

Oracle Androidチャネルでの音声の有効化

Oracle Webチャネルでの音声の有効化

Oracle iOSチャネルでの音声の有効化

拡張音声によるASRの向上