テキストから音声への使用

テキストを音声に変換する方法を説明します。

テキスト読み上げ(TTS)は、書かれたテキストを話し言葉に変換し、書かれた単語と話し言葉の間のギャップを埋めます。

TTSツールは、ビジネスに有益なユースケースをいくつか提供し、生産性とユーザー・エクスペリエンスを向上させます。

オーディオブック制作
TTSテクノロジーは、書かれたコンテンツをオーディオブックに変換することを自動化し、オーディオコンテンツに対する幅広いオーディエンスの好みに対応しながら、時間とリソースを節約することができます。
アクセシビリティ・コンプライアンス
企業は、TTSを使用してテキストを口語に変換し、Webサイトやドキュメントをアクセシビリティ規制に準拠させることで、視覚障害を持つ個人がデジタルコンテンツにアクセスできるようにすることができます。
インタラクティブ・ボイス・レスポンス(IVR)システム
TTSは、IVRシステムで自然な音声プロンプトを作成するために不可欠であり、コール・ルーティングや情報取得などの自動化された人間的なインタラクションを提供することで、カスタマー・サービスを向上させます。
バーチャル・アシスタントとチャットボット
TTSをバーチャル・アシスタントとチャットボットに統合することで、企業は、Webサイト上でもメッセージング・アプリケーション経由でも、パーソナライズされた魅力的なインタラクションをユーザーと提供し、顧客エンゲージメントとサポートを強化できます。
拡張製品デモ
営業チームは、TTSを使用して、オーディオで強化された製品デモまたはチュートリアルを作成できます。これにより、潜在的な顧客が製品の機能や利点を理解しやすくなり、より多くの情報に基づいた購入決定につながります。

機能

  • 同期API: Text to Speechは、HTTPSプロトコルを介した同期APIをサポートします。テキスト入力を送信し、応答としてオーディオを取得できます。
  • 複数の出力形式: Text to Speechは、PCM、MP3、OGGおよびJSON形式を生成できます。
  • 標準および自然な声: Text to Speechは、男性と女性の標準および自然な(人間のような)声を提供します。
  • チャンク・ストリーミングのサポート: Text to Speechサービスは、HTTPSプロトコルを介したチャンク転送エンコーディングをサポートします。入力テキストでリクエストを送信し、チャンクでオーディオ出力を取得できます。これにより、クライアント側での待機時間を短縮できます。
  • 音声合成マークアップ言語(SSML): 音声合成マークアップ言語(SSML)をテキストから音声へのリクエストで送信して、一時停止の詳細、および頭字語、日付、時刻、略語に対する音声書式設定を提供することで、音声応答をさらにカスタマイズできます。

SSMLタグ

<speak>

SSMLルート・タグ。SSML拡張テキストはすべて、<speak>タグのペアで囲む必要があります。自然な声と標準的な声

例:

<speak> This is the root tag for SSML. </speak>
<break>

メッセージに一時停止を追加します。自然な声と標準的な声

<break>属性
属性 内容
time [number]s 一時停止の期間(秒)。
[number]ms 一時停止の期間(ミリ秒単位)。
strength none 一時停止なし。noneを使用して、ピリオドの後など、通常発生する一時停止を削除します。 「0ms」と同じです。
x-weak noneと同じ強度を持ち、一時停止しません。
weak カンマの後の一時停止と同じ期間の一時停止を設定します。「150ms」と同等です。
medium weakと同じ強度を持ちます。
strong 文の後の一時停止と同じ期間の一時停止を設定します。「400ms」と同じです。
x-strong: 段落の後の一時停止と同じ期間の一時停止を設定します。「800ms」と同じです。

例1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

例2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>
<s>

テキスト内の行または文の間に休止を追加します。ピリオドまたは<break strength="strong"/>を含む終了文と同じ効果。自然な声と標準的な声

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>
<p>

テキストの段落の最後に一時停止を追加します。ネイティブスピーカーが通常カンマまたは文の末尾に配置するよりも長い一時停止を提供します。自然な声と標準的な声

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
<say-as>

特定の文字、単語および数字の記述方法を示すために使用されます。自然な声と標準的な声

属性 内容
interpret-as date 含まれるテキストをグレゴリオ暦の日付として解釈します。日付のフォーマットは、format属性で指定する必要があります。日付セパレータ文字には、スラッシュ(/)、ダッシュ(-)およびピリオド(.)を使用できます。日付文字列内には空白は使用できません。
time 数値テキストを期間、時間、分および秒で解釈します。テキストは、hour:minまたはhour:min:secondsにある必要があります。オプションで、「A.M.」または「P.M.」が続くことができます。A.M. は、AM、A.M.、またはAMとして記述することもできます。detail = "1"を設定すると、SSMLパーサーはテキスト出力を24時間形式で提供するように指示し、detail = "2"を設定すると、SSMLパーサーに12時間形式で出力するように指示します。
fraction 数値テキストを小数として解釈します。共通分数と混合分数の両方で機能します。
digits 各桁を個別にスペルします(例1234は1-2-3-4)。
cardinal 数値テキストを基数として解釈します。
ordinal 数値テキストを序数として解釈します。例'1'は1番目、'2'は'2番目'として解釈されます。
spell-out say-asタグで囲まれたテキストの各文字を出力します。これには、句読点、特殊記号、スペースも含まれます。
unit 数値テキストを測定として解釈します。値は数値または小数で、その後に空白のない単位が続く必要があります。

例:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
<sub>

alias属性とともに使用して、頭字語や略語などの選択したテキストに別の単語(または発音)を代入します。自然な声と標準的な声

例:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
<フォネム>

特定の単語の語句を、属性phで指定されたものに置き換えます。自然な声と標準的な声

属性 内容
alphabet ipa  国際音声記号(IPA)が使用されることを示します。
x-sampa 拡張音声評価方法音声アルファベット(X-SAMPA)が使用されることを示します。
ph カスタム発音の音素を指定します

例:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>
<本文>

言語におけるストレスとイントネーションのパターンを指します。標準の音声のみが使用可能です。

属性 内容
rate "X%"

音声の速度を制御します。パーセントの値は100%未満にする必要があり、レートの増減はデフォルトのスピーキング・レートに対して相対的です。

Xは、レートの増加(+X%)または減少(-X%)を示します。

default デフォルト・スピーキング・レート
x-slow ゆっくり話す速度。
slow スロー・スピーキング率
medium 中程度の発言率デフォルトのスピーキング・レート。
fast 早口率。
x-fast 非常にスピーキング速度。
volume "XdB"

音声の音量を制御します。この属性を使用すると、固定ボリュームは割り当てませんが、現在のボリュームに対して相対的に変更されます。

Xは、ボリュームを増減させるかどうかに応じて、正の数または負の数にできます。

default デフォルトのボリューム。
x-soft 非常に低い容積。デフォルトより約12dB低くなっています。
soft 小量。デフォルトより約6dB低くなっています。
medium 中ボリューム率。デフォルト値です。
loud 大音量。デフォルトより約6dB高い。
x-loud 大音量です。デフォルトより約12dB高い。
pitch default デフォルトのピッチ。
x-low 非常に低いピッチ。
low 低ピッチ。
medium 中ピッチ 既定のピッチ
high 高いピッチ
x-high とても高いピッチ。

例1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

例2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

例3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
<請求書>

単一のSSMLリクエストで複数の音声を使用できます。自然な声と標準的な声

例:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

データ処理

Oracleでは、TTSサービスにアップロードする入力テキスト、またはサービスが生成するオーディオ・ファイルを他の目的に使用しますか。

いいえ、TTSサービスにアップロードした入力テキストや生成されたオーディオ・ファイルは、入力テキストのスピーチ・レンディションを提供する目的以外には使用しません。

Oracleでは、入力テキストを使用してTTSサービスをトレーニングしますか。

いいえ、TTSサービスをトレーニングするために提供する入力テキストは使用しません。

TTSサービスに送信する入力テキスト、結果、またはリクエスト自体に関するその他の情報は、Oracleサーバーに格納されますか。

TTSサービスに送信する入力テキストは、オーディオファイルの生成中にメモリー内で処理されます。当社は、サービスの改善、請求および測定の目的、および不正使用との闘いのために、お客様のリクエストに関するメタデータを一時的に記録します。メタデータの例は、リクエストの時間およびサイズです。