シナリオ2: 生成AIでのRetrieval-Augmented Generation (RAG)ベンチマーク
RAGシナリオには、非常に長いプロンプトと短い応答があります。このシナリオでは、サマリーのユースケースも模倣します。
- プロンプトの長さは2,000トークンに固定されています。
- レスポンスの長さは200トークンに固定されます。
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンス内のトークンの数。
- リクエスト間の(2)および(3)の差異。
ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。取得拡張生成シナリオは、次のリージョンで実行されます。
ブラジル東部(サンパウロ)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 136.91 133.84 3.19 18.35 2 128.58 250.14 3.40 34.21 4 114.22 434.70 3.81 59.56 8 93.74 680.93 4.67 92.38 16 71.06 1,007.40 5.96 138.94 32 50.30 1,561.75 8.74 212.91 64 30.71 1,922.54 14.28 262.99 128 17.99 2,043.92 25.57 279.72 256 8.83 2,061.45 46.83 281.73 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.30 103.49 4.27 13.81 2 99.67 195.23 4.51 26.15 4 92.17 349.80 4.87 46.61 8 73.11 532.86 6.08 71.15 16 54.17 750.15 6.08 99.56 32 40.22 1,266.6 11.18 169.29 64 24.62 1,559.01 18.31 208.03 128 15.35 1,604.24 31.44 213.95 256 6.96 1,660.81 58.06 221.39 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.37 50.55 3.93 15.16 2 51.06 96.43 4.11 28.93 4 48.31 183.35 4.33 55.01 8 41.85 309.97 5.05 92.99 16 33.93 489.93 6.29 146.98 32 23.61 663.30 9.12 198.99 64 18.27 724.11 15.87 217.23 128 18.27 724.07 28.49 217.22 256 18.35 709.78 45.89 212.94 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.83 44.33 4.47 13.30 2 46.14 82.67 4.79 24.80 4 45.18 145.33 5.46 43.60 8 44.67 234.67 6.74 70.40 16 43.43 336.00 9.34 100.80 32 32.74 394.66 15.61 118.40 64 33.25 416.00 30.12 124.80 128 33.28 405.32 59.98 121.60 256 33.27 394.60 116.63 118.38 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.23 101.67 1.95 30.50 2 100.86 191.33 2.08 57.40 4 96.79 348.00 2.28 104.40 8 86.60 568.00 2.77 170.40 16 72.41 837.33 3.73 251.20 32 43.23 1,002.66 6.19 300.80 64 47.43 1,066.65 11.63 320.00 128 47.45 1,066.62 23.25 319.99 256 47.41 1,066.60 45.83 319.98 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.30 25.65 7.74 7.69 2 25.70 48.30 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.10 67.15 32 10.97 330.10 19.10 99.03 64 8.80 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.70 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.86 49.82 4.10 14.62 2 91.14 94.21 4.34 14.62 4 84.77 170.89 4.63 50.04 8 75.09 281.23 5.35 82.35 16 58.20 407.94 7.00 82.35 32 42.16 593.60 10.26 174.28 64 31.93 715.30 16.44 174.28 128 30.32 754.79 29.37 174.28 256 29.16 751.22 56.21 220.34 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.78 47.82 4.28 14.02 2 45.51 90.14 4.50 26.42 4 42.24 164.92 4.81 48.51 8 37.44 289.82 5.48 85.13 16 28.00 421.00 7.19 123.72 32 18.73 542.99 10.65 159.56 64 11.63 668.78 16.17 196.44 128 6.20 700.83 32.89 205.70 256 3.97 756.00 54.71 222.02 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 107.17 94.33 4.17 14.12 2 100.71 176.04 4.44 26.35 4 90.03 310.18 4.96 46.44 8 70.71 493.30 6.26 73.86 16 53.45 716.66 8.20 108.07 32 35.60 929.63 12.22 139.13 64 21.75 1,150.16 18.41 172.14 128 17.99 1,209.36 31.93 181.05 256 9.19 1,213.82 53.31 181.70
Germany Central (Frankfurt)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 136.91 133.84 3.19 18.35 2 128.58 250.14 3.40 34.21 4 114.22 434.70 3.81 59.56 8 93.74 680.93 4.67 92.38 16 71.06 1,007.40 5.96 138.94 32 50.30 1,561.75 8.74 212.91 64 30.71 1,922.54 14.28 262.99 128 17.99 2,043.92 25.57 279.72 256 8.83 2,061.45 46.83 281.73 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.30 103.49 4.27 13.81 2 99.67 195.23 4.51 26.15 4 92.17 349.80 4.87 46.61 8 73.11 532.86 6.08 71.15 16 54.17 750.15 6.08 99.56 32 40.22 1,266.6 11.18 169.29 64 24.62 1,559.01 18.31 208.03 128 15.35 1,604.24 31.44 213.95 256 6.96 1,660.81 58.06 221.39 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.37 50.55 3.93 15.16 2 51.06 96.43 4.11 28.93 4 48.31 183.35 4.33 55.01 8 41.85 309.97 5.05 92.99 16 33.93 489.93 6.29 146.98 32 23.61 663.30 9.12 198.99 64 18.27 724.11 15.87 217.23 128 18.27 724.07 28.49 217.22 256 18.35 709.78 45.89 212.94 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.30 25.65 7.74 7.69 2 25.70 48.30 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.10 67.15 32 10.97 330.10 19.10 99.03 64 8.80 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.70 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.86 49.82 4.10 14.62 2 91.14 94.21 4.34 14.62 4 84.77 170.89 4.63 50.04 8 75.09 281.23 5.35 82.35 16 58.20 407.94 7.00 82.35 32 42.16 593.60 10.26 174.28 64 31.93 715.30 16.44 174.28 128 30.32 754.79 29.37 174.28 256 29.16 751.22 56.21 220.34 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.78 47.82 4.28 14.02 2 45.51 90.14 4.50 26.42 4 42.24 164.92 4.81 48.51 8 37.44 289.82 5.48 85.13 16 28.00 421.00 7.19 123.72 32 18.73 542.99 10.65 159.56 64 11.63 668.78 16.17 196.44 128 6.20 700.83 32.89 205.70 256 3.97 756.00 54.71 222.02 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 107.17 94.33 4.17 14.12 2 100.71 176.04 4.44 26.35 4 90.03 310.18 4.96 46.44 8 70.71 493.30 6.26 73.86 16 53.45 716.66 8.20 108.07 32 35.60 929.63 12.22 139.13 64 21.75 1,150.16 18.41 172.14 128 17.99 1,209.36 31.93 181.05 256 9.19 1,213.82 53.31 181.70
Japan Central (Osaka)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 136.91 133.84 3.19 18.35 2 128.58 250.14 3.40 34.21 4 114.22 434.70 3.81 59.56 8 93.74 680.93 4.67 92.38 16 71.06 1,007.40 5.96 138.94 32 50.30 1,561.75 8.74 212.91 64 30.71 1,922.54 14.28 262.99 128 17.99 2,043.92 25.57 279.72 256 8.83 2,061.45 46.83 281.73 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.30 103.49 4.27 13.81 2 99.67 195.23 4.51 26.15 4 92.17 349.80 4.87 46.61 8 73.11 532.86 6.08 71.15 16 54.17 750.15 6.08 99.56 32 40.22 1,266.6 11.18 169.29 64 24.62 1,559.01 18.31 208.03 128 15.35 1,604.24 31.44 213.95 256 6.96 1,660.81 58.06 221.39 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.37 50.55 3.93 15.16 2 51.06 96.43 4.11 28.93 4 48.31 183.35 4.33 55.01 8 41.85 309.97 5.05 92.99 16 33.93 489.93 6.29 146.98 32 23.61 663.30 9.12 198.99 64 18.27 724.11 15.87 217.23 128 18.27 724.07 28.49 217.22 256 18.35 709.78 45.89 212.94 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.83 44.33 4.47 13.30 2 46.14 82.67 4.79 24.80 4 45.18 145.33 5.46 43.60 8 44.67 234.67 6.74 70.40 16 43.43 336.00 9.34 100.80 32 32.74 394.66 15.61 118.40 64 33.25 416.00 30.12 124.80 128 33.28 405.32 59.98 121.60 256 33.27 394.60 116.63 118.38 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.23 101.67 1.95 30.50 2 100.86 191.33 2.08 57.40 4 96.79 348.00 2.28 104.40 8 86.60 568.00 2.77 170.40 16 72.41 837.33 3.73 251.20 32 43.23 1,002.66 6.19 300.80 64 47.43 1,066.65 11.63 320.00 128 47.45 1,066.62 23.25 319.99 256 47.41 1,066.60 45.83 319.98 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.30 25.65 7.74 7.69 2 25.70 48.30 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.10 67.15 32 10.97 330.10 19.10 99.03 64 8.80 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.70 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.86 49.82 4.10 14.62 2 91.14 94.21 4.34 14.62 4 84.77 170.89 4.63 50.04 8 75.09 281.23 5.35 82.35 16 58.20 407.94 7.00 82.35 32 42.16 593.60 10.26 174.28 64 31.93 715.30 16.44 174.28 128 30.32 754.79 29.37 174.28 256 29.16 751.22 56.21 220.34 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 107.17 94.33 4.17 14.12 2 100.71 176.04 4.44 26.35 4 90.03 310.18 4.96 46.44 8 70.71 493.30 6.26 73.86 16 53.45 716.66 8.20 108.07 32 35.60 929.63 12.22 139.13 64 21.75 1,150.16 18.41 172.14 128 17.99 1,209.36 31.93 181.05 256 9.19 1,213.82 53.31 181.70
UK South (London)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 136.91 133.84 3.19 18.35 2 128.58 250.14 3.40 34.21 4 114.22 434.70 3.81 59.56 8 93.74 680.93 4.67 92.38 16 71.06 1,007.40 5.96 138.94 32 50.30 1,561.75 8.74 212.91 64 30.71 1,922.54 14.28 262.99 128 17.99 2,043.92 25.57 279.72 256 8.83 2,061.45 46.83 281.73 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.30 103.49 4.27 13.81 2 99.67 195.23 4.51 26.15 4 92.17 349.80 4.87 46.61 8 73.11 532.86 6.08 71.15 16 54.17 750.15 6.08 99.56 32 40.22 1,266.6 11.18 169.29 64 24.62 1,559.01 18.31 208.03 128 15.35 1,604.24 31.44 213.95 256 6.96 1,660.81 58.06 221.39 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.37 50.55 3.93 15.16 2 51.06 96.43 4.11 28.93 4 48.31 183.35 4.33 55.01 8 41.85 309.97 5.05 92.99 16 33.93 489.93 6.29 146.98 32 23.61 663.30 9.12 198.99 64 18.27 724.11 15.87 217.23 128 18.27 724.07 28.49 217.22 256 18.35 709.78 45.89 212.94 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.83 44.33 4.47 13.30 2 46.14 82.67 4.79 24.80 4 45.18 145.33 5.46 43.60 8 44.67 234.67 6.74 70.40 16 43.43 336.00 9.34 100.80 32 32.74 394.66 15.61 118.40 64 33.25 416.00 30.12 124.80 128 33.28 405.32 59.98 121.60 256 33.27 394.60 116.63 118.38 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.23 101.67 1.95 30.50 2 100.86 191.33 2.08 57.40 4 96.79 348.00 2.28 104.40 8 86.60 568.00 2.77 170.40 16 72.41 837.33 3.73 251.20 32 43.23 1,002.66 6.19 300.80 64 47.43 1,066.65 11.63 320.00 128 47.45 1,066.62 23.25 319.99 256 47.41 1,066.60 45.83 319.98 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.30 25.65 7.74 7.69 2 25.70 48.30 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.10 67.15 32 10.97 330.10 19.10 99.03 64 8.80 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.70 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.86 49.82 4.10 14.62 2 91.14 94.21 4.34 14.62 4 84.77 170.89 4.63 50.04 8 75.09 281.23 5.35 82.35 16 58.20 407.94 7.00 82.35 32 42.16 593.60 10.26 174.28 64 31.93 715.30 16.44 174.28 128 30.32 754.79 29.37 174.28 256 29.16 751.22 56.21 220.34 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.78 47.82 4.28 14.02 2 45.51 90.14 4.50 26.42 4 42.24 164.92 4.81 48.51 8 37.44 289.82 5.48 85.13 16 28.00 421.00 7.19 123.72 32 18.73 542.99 10.65 159.56 64 11.63 668.78 16.17 196.44 128 6.20 700.83 32.89 205.70 256 3.97 756.00 54.71 222.02 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 107.17 94.33 4.17 14.12 2 100.71 176.04 4.44 26.35 4 90.03 310.18 4.96 46.44 8 70.71 493.30 6.26 73.86 16 53.45 716.66 8.20 108.07 32 35.60 929.63 12.22 139.13 64 21.75 1,150.16 18.41 172.14 128 17.99 1,209.36 31.93 181.05 256 9.19 1,213.82 53.31 181.70
US Midwest (Chicago)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 136.91 133.84 3.19 18.35 2 128.58 250.14 3.40 34.21 4 114.22 434.70 3.81 59.56 8 93.74 680.93 4.67 92.38 16 71.06 1,007.40 5.96 138.94 32 50.30 1,561.75 8.74 212.91 64 30.71 1,922.54 14.28 262.99 128 17.99 2,043.92 25.57 279.72 256 8.83 2,061.45 46.83 281.73 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.30 103.49 4.27 13.81 2 99.67 195.23 4.51 26.15 4 92.17 349.80 4.87 46.61 8 73.11 532.86 6.08 71.15 16 54.17 750.15 6.08 99.56 32 40.22 1,266.6 11.18 169.29 64 24.62 1,559.01 18.31 208.03 128 15.35 1,604.24 31.44 213.95 256 6.96 1,660.81 58.06 221.39 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.37 50.55 3.93 15.16 2 51.06 96.43 4.11 28.93 4 48.31 183.35 4.33 55.01 8 41.85 309.97 5.05 92.99 16 33.93 489.93 6.29 146.98 32 23.61 663.30 9.12 198.99 64 18.27 724.11 15.87 217.23 128 18.27 724.07 28.49 217.22 256 18.35 709.78 45.89 212.94 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.83 44.33 4.47 13.30 2 46.14 82.67 4.79 24.80 4 45.18 145.33 5.46 43.60 8 44.67 234.67 6.74 70.40 16 43.43 336.00 9.34 100.80 32 32.74 394.66 15.61 118.40 64 33.25 416.00 30.12 124.80 128 33.28 405.32 59.98 121.60 256 33.27 394.60 116.63 118.38 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.23 101.67 1.95 30.50 2 100.86 191.33 2.08 57.40 4 96.79 348.00 2.28 104.40 8 86.60 568.00 2.77 170.40 16 72.41 837.33 3.73 251.20 32 43.23 1,002.66 6.19 300.80 64 47.43 1,066.65 11.63 320.00 128 47.45 1,066.62 23.25 319.99 256 47.41 1,066.60 45.83 319.98 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.30 25.65 7.74 7.69 2 25.70 48.30 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.10 67.15 32 10.97 330.10 19.10 99.03 64 8.80 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.70 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.86 49.82 4.10 14.62 2 91.14 94.21 4.34 14.62 4 84.77 170.89 4.63 50.04 8 75.09 281.23 5.35 82.35 16 58.20 407.94 7.00 82.35 32 42.16 593.60 10.26 174.28 64 31.93 715.30 16.44 174.28 128 30.32 754.79 29.37 174.28 256 29.16 751.22 56.21 220.34 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 28.84 28.82 7.11 8.44 2 26.52 52.69 7.66 15.51 4 24.23 94.86 8.38 27.92 8 20.01 155.97 10.21 45.76 16 14.34 216.26 14.12 63.43 32 9.33 275.28 21.30 80.89 64 5.68 334.46 32.55 98.11 128 3.13 364.18 64.59 106.94 256 1.59 359.21 128.67 105.44 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 107.17 94.33 4.17 14.12 2 100.71 176.04 4.44 26.35 4 90.03 310.18 4.96 46.44 8 70.71 493.30 6.26 73.86 16 53.45 716.66 8.20 108.07 32 35.60 929.63 12.22 139.13 64 21.75 1,150.16 18.41 172.14 128 17.99 1,209.36 31.93 181.05 256 9.19 1,213.82 53.31 181.70 - モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされる
cohere.command
(Cohere Command 52 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 33.13 25.28 6.68 8.62 8 23.24 90.64 13.29 29.84 32 13.03 163.48 26.56 54.21 128 5.60 186.31 65.30 61.32 - モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされる
cohere.command-light
(Cohere Command Light 6 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 56.71 50.88 3.14 17.61 8 24.70 148.42 6.15 53.93 32 11.06 235.31 13.37 85.14 128 3.40 280.3 31.64 105.77