生成AIでのトレーニング・データ要件
OCI生成AIで事前トレーニングされたモデルをファインチューニングするためのトレーニング・データを作成するためのガイドラインを理解します。
カスタム・モデルは、JSONL (JSON Lines)
形式のトレーニング・データセット・ファイルを1つのみ受け入れます。ファイルには、ファイルごとに最低32のプロンプト/完了ペアの例が必要です。このデータセットは、トレーニングと検証のために80:20の比率にランダムに分割されます。トレーニング・ファイルの最大文数はありませんが、大規模なデータセットではトレーニングに時間がかかります。
JSONL
について-
JSONL
ファイルには、各行に新しいJSON
値またはオブジェクトが含まれます。ファイルは、通常のJSON
ファイルと同様に全体として評価されません。かわりに、各行は個別のJSON
ファイルであるかのように処理されます。この形式は、一連の入力をJSON
形式で格納するのに最適です。OCI Generative AIサービスは、次の形式でカスタム・モデルをファインチューニングするための
JSONL
ファイルを受け入れます:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
JSONL
例
ノート
生成AIに作成する各
生成AIに作成する各
JSONL
データセット・ファイルに次のプロパティがあることを確認してください: - ファイルは
UTF-8
でエンコードされています。 - 各行アイテムには、有効な
JSON
オブジェクトが含まれます。 - 各
JSON
オブジェクトには、"prompt"
と"completion"
の2つのプロパティがあります - 各
JSON
オブジェクトは、改行または改行文字(\n
)で入力されます。
JSONLファイルを作成したら、オブジェクト・ストレージ・バケットにデータセットを追加します。