音声
Oracle Android、Oracle iOSおよびOracle Webチャネル用のSDKは、音声認識に統合されているため、ユーザーはスキルやデジタル・アシスタントと直接会話して、適切なレスポンスを取得できます。
音声認識が有効になっている場合は、ユーザー入力フィールドが空になると、送信ボタンがマイクロフォン・ボタンに置き換わります。ユーザーがこのボタンをタップすると、音声の記録が開始されます。音声は、認識のために音声サーバーに送信され、テキストに変換されてからスキルに送信されます。音声が部分的にしか認識されない場合、ユーザー入力フィールドに部分的な結果が表示されるため、ユーザーはそれをスキルに送信する前にクリーン・アップできます
音声がサポートされている言語のリストは、言語別の一般的な機能サポートを参照してください。
拡張音声によるASRの向上
拡張音声を使用できるのは、英語を話すユーザー向けの英語のスキル(英語のトレーニング・データを含む)のみです。
- 「設定」で「拡張音声」を選択します。
- スキルを再トレーニングします。
- Oracle Web、iOSまたはAndroidクライアント・チャネルをスキルにルーティングします。
ヒント:
拡張音声モデルは、バージョン20.12以降で開発されたスキルでのみ使用できます。拡張音声モデルを使用するには、スキルを20.12にアップグレードする必要があります。
このオプションを選択すると、音声認識システムによって、スキルのインテントとエンティティ・データ(発話、エンティティ値、カスタム・エンティティ値と動的エンティティ値の両方のシノニム、およびインテントに関連付けられたシステム・エンティティ)に基づく拡張音声モデルが構築されます。拡張音声モデルは、スキルを再トレーニングするたびに更新されます(または、現在のリリースの場合と同様に、動的エンティティAPIからのファイナライズされたプッシュ・リクエスト後にスキルが再トレーニングされるたびに更新されます)。
ユーザーがOracle Web、iOSまたはAndroidクライアント・チャネルを介して音声リクエストを発行すると、音声ランタイムは、チャネルにルーティングされるスキルのカスタム言語モデルを動的に取得します。チャネルがデジタル・アシスタントを指している場合、チャネルは「拡張音声の有効化」が有効になっているスキルごとにカスタム言語モデルをプルします。デジタル・アシスタントに登録されている個々のスキルで、この設定のオンとオフを切り替えることができます。