テキストから音声への使用

テキストを音声に変換する方法を説明します。

テキスト読み上げ(TTS)は、書かれたテキストを話し言葉に変換し、書かれた単語と話し言葉の間のギャップを埋めます。

TTSツールは、ビジネスに有益なユースケースをいくつか提供し、生産性とユーザー・エクスペリエンスを向上させます。

オーディオブック制作: TTSテクノロジーは、書かれたコンテンツをオーディオブックに変換することを自動化し、オーディオコンテンツに対する幅広いオーディエンスの好みに対応しながら、時間とリソースを節約することができます。

アクセシビリティ・コンプライアンス: 企業は、TTSを使用してテキストを口語に変換し、Webサイトやドキュメントをアクセシビリティ規制に準拠させることで、視覚障害を持つ個人がデジタルコンテンツにアクセスできるようにすることができます。

インタラクティブ・ボイス・レスポンス(IVR)システム: TTSは、IVRシステムで自然な音声プロンプトを作成するために不可欠であり、コール・ルーティングや情報取得などの自動化された人間的なインタラクションを提供することで、カスタマー・サービスを向上させます。

バーチャル・アシスタントとチャットボット: TTSをバーチャル・アシスタントとチャットボットに統合することで、企業は、Webサイト上でもメッセージング・アプリケーション経由でも、パーソナライズされた魅力的なインタラクションをユーザーと提供し、顧客エンゲージメントとサポートを強化できます。

拡張製品デモ: 営業チームは、TTSを使用して、オーディオで強化された製品デモまたはチュートリアルを作成できます。これにより、潜在的な顧客が製品の機能や利点を理解しやすくなり、より多くの情報に基づいた購入決定につながります。

機能

同期API: テキスト・ツー・スピーチでは、HTTPSプロトコルを介した同期APIがサポートされています。テキスト入力を送信し、オーディオをレスポンスとして取得できます。
複数の出力形式: テキスト・ツー・スピーチでは、PCM、MP3、OGGおよびJSON形式を生成できます。
標準音声と自然音声: テキスト・トゥ・スピーチは、男性と女性の標準音声と自然音声(人間のような音声)を提供します。
チャンク・ストリーミングのサポート: テキスト・ツー・スピーチ・サービスは、HTTPSプロトコルを介したチャンク転送エンコーディングをサポートします。入力テキストでリクエストを送信し、オーディオ出力をチャンクで取得できます。これにより、クライアント側の待機時間を短縮できます。
音声合成マークアップ言語(SSML): テキストの音声合成マークアップ言語(SSML)を音声リクエストに送信して、一時停止の詳細と、頭字語、日付、時間および略称の音声フォーマットを提供することで、音声レスポンスのカスタマイズを強化できます。
ノート

SSMLは、一部の英語(US)スピーカーでのみサポートされており、他の言語のスピーカーではサポートされていません。
多言語サポート: テキスト・ツー・スピーチ自然モデルでは、次の9つの言語がサポートされています。
- 英語(アメリカ)
- 英語(イギリス)
- スペイン語(スペイン)
- ポルトガル語(ブラジル)
- フランス語
- イタリア語
- ヒンディー語
- 日本語
- 中国語(標準語)

言語と機能のサポート

言語コード


言語	言語コード
英語— 米国	`en-US`
英語- 英国	`en-GB`
スペイン語— スペイン	`es-ES`
ポルトガル語- ブラジル	`pt-BR`
フランス語- フランス語	`fr-FR`
イタリア語- イタリア	`it-IT`
ヒンディー語- インド	`hi-IN`
日本語— 日本	`ja-JP`
中国語- 中国マンダリン	`cmn-CN`

英語— 米国でサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
ブライアン(男性) アナベル(女性) ボブ(男性) ステイシー(女性) フィル(女性) シンディ(女性) ブラッド(男性) リチャード(男性) メアリー(女性) アマンダ(女性) グレース(女性) ローラ(女性) メーガン(女性) オリビア(女性) レイチェル(女性) ステファニー(女性) テレサ(女性) ビクトリア(女性) アシュリー(女性) アダム(男性) イーサン(男性) ヘンリー(男性) ジャック(男性) クリス(男性) マーク(男性) ポール(男性) スティーブ(男性) ケビン(男性)	はいはいはいはいはいはいはいはいいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえいいえ	ブライアン(男性) アナベル(女性) ボブ(男性) ステイシー(女性) フィル(女性) シンディ(女性)	はいはいはいはいはいはい	はい	`MP3` `PCM` `OGG` `JSON`

英語- Great Britain Supported Features


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
シャーロット(女性) エミリー(女性) ソフィー(女性) イスラ(女性) オリバー(男性) ハリー(男性) テオ(男性) アーサー(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

スペイン語- スペインでサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
カルメン(女性) マテオ(男性) ルーカス(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

ポルトガル語- ブラジルでサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
マリアナ(女性) フェリックス(男性) ミゲル(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

フランス語- フランスでサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
クレア(女性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

イタリア語- イタリアでサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
ジュリア(女性) ルカ(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

ヒンディー語- インドでサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
アシャ(女性) プリヤ(女性) アルジュン(男性) ラーフル(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

日本語- 日本でサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
愛子(女性) ハナ(女性) サクラ(女性) ゆき(女性) サトシ(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

中国語- 中国マンダリンでサポートされている機能


自然 (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		チャンクストリーミング	出力フォーマット
VoiceId(性別)	SSMLサポート?	VoiceId(性別)	SSMLサポート?	チャンクストリーミング	出力フォーマット
Jia(女性) Ling(女性) メイ(女性) Xiu(女性) Jun(男性) ハオ(男性) ミン(男性) 王(男性)	未サポート	未サポート	未サポート	はい	`MP3` `PCM` `OGG` `JSON`

SSMLタグ

ノート

SSMLタグをサポートするテキストから音声への言語および音声モデルのリストは、言語および機能のサポートを参照してください。

<speak>

SSMLルート・タグ。SSML拡張テキストはすべて、<speak>タグのペアで囲む必要があります。自然な声と標準的な声

例:

<speak> This is the root tag for SSML. </speak>

<break>

メッセージに一時停止を追加します。自然な声と標準的な声

`<break>`属性
属性	値	内容
`time`	`[number]s`	一時停止の期間(秒)。
`time`	`[number]ms`	一時停止の期間(ミリ秒単位)。
`strength`	`none`	一時停止なし。`none`を使用して、ピリオドの後など、通常発生する一時停止を削除します。「0ms」と同じです。
	`x-weak`	`none`と同じ強度を持ち、一時停止しません。
	`weak`	カンマの後の一時停止と同じ期間の一時停止を設定します。「150ms」と同等です。
	`medium`	`weak`と同じ強度を持ちます。
	`strong`	文の後の一時停止と同じ期間の一時停止を設定します。「400ms」と同じです。
	`x-strong`:	段落の後の一時停止と同じ期間の一時停止を設定します。「800ms」と同じです。

例1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

例2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>

<s>

テキスト内の行または文の間に休止を追加します。ピリオドまたは<break strength="strong"/>を含む終了文と同じ効果。自然な声と標準的な声

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>

<p>

テキストの段落の最後に一時停止を追加します。ネイティブスピーカーが通常カンマまたは文の末尾に配置するよりも長い一時停止を提供します。自然な声と標準的な声

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>

<say-as>

特定の文字、単語および数字の記述方法を示すために使用されます。自然な声と標準的な声


属性	値	内容
`interpret-as`	`date`	含まれるテキストをグレゴリオ暦の日付として解釈します。日付のフォーマットは、`format`属性で指定する必要があります。日付セパレータ文字には、スラッシュ(/)、ダッシュ(-)およびピリオド(.)を使用できます。日付文字列内には空白は使用できません。
	`time`	数値テキストを期間、時間、分および秒で解釈します。テキストは、`hour:min`または`hour:min:seconds`にある必要があります。オプションで、「A.M.」または「P.M.」が続くことができます。A.M. は、AM、A.M.、またはAMとして記述することもできます。`detail` = "1"を設定すると、SSMLパーサーはテキスト出力を24時間形式で提供するように指示し、`detail` = "2"を設定すると、SSMLパーサーに12時間形式で出力するように指示します。
	`fraction`	数値テキストを小数として解釈します。共通分数と混合分数の両方で機能します。
	`digits`	各桁を個別にスペルします(例1234は1-2-3-4)。
	`cardinal`	数値テキストを基数として解釈します。
	`ordinal`	数値テキストを序数として解釈します。例'1'は1番目、'2'は'2番目'として解釈されます。
	`spell-out`	`say-as`タグで囲まれたテキストの各文字を出力します。これには、句読点、特殊記号、スペースも含まれます。
	`unit`	数値テキストを測定として解釈します。値は数値または小数で、その後に空白のない単位が続く必要があります。

例:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>

<sub>

alias属性とともに使用して、頭字語や略語などの選択したテキストに別の単語(または発音)を代入します。自然な声と標準的な声

例:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>

<フォネム>

特定の単語の語句を、属性phで指定されたものに置き換えます。自然な声と標準的な声


属性	値	内容
`alphabet`	`ipa`	国際音声記号(IPA)が使用されることを示します。
`alphabet`	`x-sampa`	拡張音声評価方法音声アルファベット(X-SAMPA)が使用されることを示します。
`ph`		カスタム発音の音素を指定します

例:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>

<本文>

言語におけるストレスとイントネーションのパターンを指します。標準の音声のみが使用可能です。


属性	値	内容
`rate`	`"X%"`	音声の速度を制御します。パーセントの値は100%未満にする必要があり、レートの増減はデフォルトのスピーキング・レートに対して相対的です。 Xは、レートの増加(+X%)または減少(-X%)を示します。
	`default`	デフォルト・スピーキング・レート
	`x-slow`	ゆっくり話す速度。
	`slow`	スロー・スピーキング率
	`medium`	中程度の発言率デフォルトのスピーキング・レート。
	`fast`	早口率。
	`x-fast`	非常にスピーキング速度。
`volume`	`"XdB"`	音声の音量を制御します。この属性を使用すると、固定ボリュームは割り当てませんが、現在のボリュームに対して相対的に変更されます。 Xは、ボリュームを増減させるかどうかに応じて、正の数または負の数にできます。
	`default`	デフォルトのボリューム。
	`x-soft`	非常に低い容積。デフォルトより約12dB低くなっています。
	`soft`	小量。デフォルトより約6dB低くなっています。
	`medium`	中ボリューム率。デフォルト値です。
	`loud`	大音量。デフォルトより約6dB高い。
	`x-loud`	大音量です。デフォルトより約12dB高い。
`pitch`	`default`	デフォルトのピッチ。
	`x-low`	非常に低いピッチ。
	`low`	低ピッチ。
	`medium`	中ピッチ既定のピッチ
	`high`	高いピッチ
	`x-high`	とても高いピッチ。

例1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

例2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

例3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>

<請求書>

単一のSSMLリクエストで複数の音声を使用できます。自然な声と標準的な声

例:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

データ処理

Oracleでは、TTSサービスにアップロードする入力テキスト、またはサービスが生成するオーディオ・ファイルを他の目的に使用しますか。

いいえ、TTSサービスにアップロードした入力テキストや生成されたオーディオ・ファイルは、入力テキストのスピーチ・レンディションを提供する目的以外には使用しません。

Oracleでは、入力テキストを使用してTTSサービスをトレーニングしますか。

いいえ、TTSサービスをトレーニングするために提供する入力テキストは使用しません。

TTSサービスに送信する入力テキスト、結果、またはリクエスト自体に関するその他の情報は、Oracleサーバーに格納されますか。

TTSサービスに送信する入力テキストは、オーディオファイルの生成中にメモリー内で処理されます。当社は、サービスの改善、請求および測定の目的、および不正使用との闘いのために、お客様のリクエストに関するメタデータを一時的に記録します。メタデータの例は、リクエストの時間およびサイズです。

Oracle Cloud Infrastructureドキュメント

テキストから音声への使用

機能

言語と機能のサポート

言語コード

SSMLタグ

データ処理