生成AIでの事前トレーニング済基礎モデル

OCI生成AIでは、次の事前トレーニングされた基礎モデルを使用できます。

重要

サポートされているモデル時間行は、モデルの廃止を参照してください。
チャット・モデル(新規)

AIチャット・インタフェースを使用して質問し、会話型レスポンスを取得します。

Cohereモデル
モデル これらの地域で利用可能 主な機能
cohere.command-r-08-2024
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • 複雑なタスク用に最適化され、高度な言語理解、容量の向上、およびcohere.command-rよりも微妙なレスポンスを提供し、128,000トークンの長い会話履歴からコンテキストを維持できます。また、質問回答、センチメント分析および情報取得にも最適です。
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • このモデルを微調整すると、カスタム・モデルのユーザー・プロンプトは最大16,000個のトークンになり、実行ごとにレスポンスの長さが4,000個のトークンに制限されます。
  • 数学、コーディングおよび推論スキルの向上。
  • カスタマイズ可能な引用オプションを備えた拡張された多言語検索拡張生成(RAG)機能。
  • このモデルをデータセットで微調整できます。
cohere.command-r-plus-08-2024
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • 複雑なタスク用に最適化され、高度な言語理解、容量の向上、およびcohere.command-r-plusよりも微妙なレスポンスを提供し、128,000トークンの長い会話履歴からコンテキストを維持できます。また、質問回答、センチメント分析および情報取得にも最適です。
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • 数学、コーディングおよび推論スキルの向上。
  • カスタマイズ可能な引用オプションを備えた拡張された多言語検索拡張生成(RAG)機能。
cohere.command-r-16k (deprecated)
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)(専用AIクラスタのみ)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • 専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、クラスタでモデルをホストします。
  • 最大プロンプト+レスポンス長: 実行ごとに16,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • このモデルを微調整すると、モデルのレスポンス長は、実行ごとに4,000トークンに制限されます。
  • 会話型インタラクションおよび長いコンテキスト・タスク用に最適化されています。テキスト生成、要約、翻訳およびテキストベースの分類に最適です。
  • このモデルをデータセットで微調整できます。
cohere.command-r-plus (deprecated)
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • 専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、クラスタでモデルをホストします。
  • 最大プロンプト+レスポンス長: 実行ごとに16,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • 複雑なタスク用に最適化され、cohere.command-r-16kよりも高度な言語理解、高い容量、およびより微妙なレスポンスを提供します。また、質問回答、センチメント分析および情報取得にも最適です。
Meta Llamaモデル
モデル これらの地域で利用可能 主な機能
meta.llama-3.3-70b-instruct (新規)
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • モデルには700億のパラメータがあります。
  • テキストのみの入力を受け入れ、テキストのみの出力を生成します。
  • テキスト・タスクの場合、Llama 3.1 70BとLlama 3.2 90Bの両方よりもパフォーマンスが向上します。
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • このモデルをデータセットで微調整できます。
meta.llama-3.2-11b-vision-instruct
  • ブラジル東部(サンパウロ)(専用AIクラスタのみ)
  • 英国南部(ロンドン)(専用AIクラスタのみ)
  • 日本中央部(大阪)(専用AIクラスタのみ)
  • 米国中西部(シカゴ)(専用AIクラスタのみ)
  • モデルには110億のパラメータがあります。
  • 専用モードのみ。(オンデマンド推論は使用できません。)専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、クラスタでモデルをホストします。
  • コンテキストの長さ: 128,000トークン
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • マルチモーダル・サポート: テキストとイメージを入力し、テキスト出力を取得します。
  • イメージ+テキスト・オプションでサポートされている言語は英語のみです。
  • テキストのみのオプションでサポートされている多言語オプション。
  • コンソールで、5MB以下の.pngまたは.jpgイメージを入力します。
  • プロンプトなしでイメージを送信しても機能しません。イメージを送信する場合は、そのイメージに関するプロンプトを同じリクエストで送信する必要があります。その後、フォローアップ・プロンプトを送信でき、モデルによって会話のコンテキストが保持されます。
  • プレイグラウンドでモデルをホストし、次のイメージとテキストを追加する場合は、チャットをクリアして前の会話のコンテキストを失う原因となるチャットをクリアする必要があります。
  • APIの場合、実行ごとにbase64でエンコードされたイメージを入力します。512 x 512イメージは、約1,610個のトークンに変換されます。
meta.llama-3.2-90b-vision-instruct
  • ブラジル東部(サンパウロ)
  • 英国南部(ロンドン)
  • 日本中央部(大阪)
  • 米国中西部(シカゴ)
  • モデルには900億のパラメータがあります。
  • コンテキストの長さ: 128,000トークン
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • マルチモーダル・サポート: テキストとイメージを入力し、テキスト出力を取得します。
  • イメージ+テキスト・オプションでサポートされている言語は英語のみです。
  • テキストのみのオプションでサポートされている多言語オプション。
  • コンソールで、5MB以下の.pngまたは.jpgイメージを入力します。
  • イメージの送信は、同じリクエストでそのイメージに関するプロンプトを送信する場合にのみ機能します。
  • プレイグラウンドで、次のイメージとテキストを追加するには、チャットをクリアして前の会話のコンテキストを失う原因となるチャットをクリアする必要があります。
  • APIの場合、実行ごとにbase64でエンコードされたイメージを入力します。512 x 512イメージは、約1,610個のトークンに変換されます。
meta.llama-3.1-70b-instruct
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • モデルには700億のパラメータがあります。
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • このモデルをデータセットで微調整できます。
meta.llama-3.1-405b-instruct
  • ブラジル東部(サンパウロ)(専用AIクラスタのみ)
  • ドイツ中央部(フランクフルト)(専用AIクラスタのみ)
  • 日本中央部(大阪)(専用AIクラスタのみ)
  • 英国南部(ロンドン)(専用AIクラスタのみ)
  • 米国中西部(シカゴ)
  • モデルには4050億のパラメータがあります。
  • 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • オンデマンド推論は、米国中西部(シカゴ)リージョンでのみ使用できます。他のリージョンでは、推論のためにこれらのクラスタでこのモデルをホストするために、独自の専用AIクラスタおよびエンドポイントを作成する必要があります。
meta.llama-3-70b-instruct (非推奨)
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • モデルには700億のパラメータがあります。
  • 最大プロンプト+応答長: 実行ごとに8,000トークン。
  • アイデアの生成からテキスト分析の改良、Eメール、ブログ投稿、説明などの書面によるコンテンツの製図まで、幅広い一般的な知識があります。
ヒント

チャット・モデルについて学習します。

モデルの埋込み

セマンティック検索、テキスト分類またはテキスト・クラスタリングにアプリケーションで使用するために、テキストをベクトル埋込みに変換します。

モデル これらの地域で利用可能 主な機能
cohere.embed-english-v3.0
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • 英語または多言語
  • モデルは、埋込みごとに1024ディメンション・ベクトルを作成します。
  • 1実行当たり最大96文。
  • 埋込み当たり最大512トークン。
cohere.embed-multilingual-v3.0
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)
  • 英語または多言語
  • モデルは、埋込みごとに1024ディメンション・ベクトルを作成します。
  • 1実行当たり最大96文。
  • 埋込み当たり最大512トークン。
cohere.embed-english-light-v3.0
  • 米国中西部(シカゴ)
  • ライト モデルは、元のモデルよりも小さく、高速です。
  • 英語または多言語
  • モデルは、埋込みごとに384ディメンション・ベクトルを作成します。
  • 1実行当たり最大96文。
  • 埋込み当たり最大512トークン。
cohere.embed-multilingual-light-v3.0
  • 米国中西部(シカゴ)
  • ライト モデルは、元のモデルよりも小さく、高速です。
  • 英語または多言語
  • モデルは、埋込みごとに384ディメンション・ベクトルを作成します。
  • 1実行当たり最大96文。
  • 埋込み当たり最大512トークン。
ヒント

埋込みモデルについて学習します。

生成モデル(非推奨)

テキストの生成やテキストからの情報の抽出を指示します。

重要

  • オンデマンドで使用不可:テキスト生成および集計API (プレイグラウンドを含む)を使用するオンデマンド・サービング・モードでサポートされているすべてのOCI生成AI基礎事前トレーニング済モデルが廃止されました。かわりにチャット・モデルを使用することをお薦めします。
  • クラスタでホスト可能:専用AIクラスタ(専用サービス・モード)で集計またはcohere.commandなどの生成モデルをホストする場合、そのモデルが廃止されるまで引き続き使用できます。これらのモデルは、専用AIクラスタでホストされている場合、米国中西部(シカゴ)でのみ使用できます。廃止日と定義については、モデルの廃止を参照してください。
モデル これらの地域で利用可能 主な機能
cohere.command (非推奨)
  • 米国中西部(シカゴ)
  • モデルには520億個のパラメータがあります。
  • ユーザー・プロンプトおよびレスポンスは、実行ごとに最大4096個のトークンを含めることができます。
  • このモデルをデータセットで微調整できます。
cohere.command-light (非推奨)
  • 米国中西部(シカゴ)
  • モデルには60億個のパラメータがあります。
  • ユーザー・プロンプトおよびレスポンスは、実行ごとに最大4096個のトークンを含めることができます。
  • このモデルをデータセットで微調整できます。
meta.llama-2-70b-chat (非推奨)
  • 米国中西部(シカゴ)
  • モデルには700億のパラメータがあります。
  • ユーザー・プロンプトおよびレスポンスは、実行ごとに最大4096個のトークンを含めることができます。
ヒント

テキスト生成モデルについて学習します。

要約モデル(非推奨)

指示された形式、長さ、およびトーンでテキストを要約します。

重要

オンデマンド・サービング・モードでサポートされているcohere.commandモデルが廃止され、このモデルは専用サービング・モードでは非推奨になりました。cohere.commandを専用AIクラスタ(専用サービス・モード)でホストして集計する場合、このホスト・モデル・レプリカは、専用サービス・モードcohere.commandモデルretiresまで、集計APIおよびプレイグラウンドで引き続き使用できます。これらのモデルは、専用AIクラスタでホストされている場合、米国中西部(シカゴ)でのみ使用できます。廃止日と定義については、モデルの廃止を参照してください。かわりにチャット・モデルを使用することをお薦めします。チャット・モデルでは、サマリーの長さやスタイルの管理など、同じ要約機能が提供されます。
モデル これらの地域で利用可能 主な機能
cohere.command (非推奨)
  • 米国中西部(シカゴ)
  • モデルには520億個のパラメータがあります。
  • ユーザー・プロンプトおよびレスポンスは、実行ごとに最大4096個のトークンを含めることができます。
ヒント

サマリー・モデルについて学習します。