シナリオ1: 生成AIにおける確率的長さのベンチマーク
このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。このシナリオでは、プロンプトとレスポンスの長さが不明なため、確率的アプローチを使用して、プロンプトとレスポンスの長さの両方が正規分布に従います。
- プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います
- レスポンスの長さは、平均300トークンと標準偏差150トークンの正規分布に従います。
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンス内のトークンの数。
- リクエスト間の(2)および(3)の差異。
ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。融合シナリオは次の領域で実行されます。
ブラジル東部(サンパウロ)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 143.82 142.16 3.89 15.07 2 141.16 276.64 4.28 27.37 4 136.15 517.89 4.98 45.85 8 121.71 858.28 4.97 84.62 16 105.84 1,243.61 5.53 122.45 32 88.15 2,126.25 6.53 210.29 64 67.40 3,398.12 8.63 319.28 128 45.86 4,499.76 13.96 427.76 256 24.14 4,784.32 25.79 453.83 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 119.49 118.18 4.50 13.08 2 115.14 225.40 4.90 23.69 4 109.71 404.66 4.63 48.83 8 95.83 702.76 5.03 85.92 16 81.12 1,029.98 6.07 125.54 32 70.92 1,819.24 7.02 182.65 64 52.10 2,778.58 8.79 313.12 128 35.58 3,566.59 13.80 438.64 256 20.75 4,065.93 24.69 481.11 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.62 52.71 5.43 10.97 2 52.65 102.99 5.48 21.65 4 52.06 205.56 5.58 42.61 8 51.06 393.93 5.68 82.31 16 46.755 715.89 6.08 152.11 32 39.55 1,152.97 7.80 228.8 64 31.22 1,663.88 9.36 353.91 128 23.00 2,055.51 13.94 433.91 256 17.44 1,873.44 22.85 427.95 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 48.75 47.98 6.37 9.40 2 47.28 92.89 6.63 18.00 4 45.10 176.53 6.65 35.80 8 42.53 333.45 7.04 67.80 16 38.39 597.84 7.95 119.70 32 29.86 929.18 10.12 187.40 64 30.00 933.09 20.11 187.20 128 30.03 934.30 39.85 186.00 256 30.05 932.61 76.19 187.79 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.74 104.30 2.75 21.70 2 103.21 204.22 2.82 42.40 4 99.41 393.69 3.10 77.10 8 93.98 745.29 3.26 146.70 16 81.62 1,294.14 3.64 262.60 32 60.55 1,924.74 4.97 384.40 64 60.54 1,928.70 10.03 379.40 128 62.57 1,912.53 19.68 383.09 256 60.00 1,911.45 38.36 386.14 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.44 26.84 11.66 5.10 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.50 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.90 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.50 51.58 6.12 9.78 2 92.25 98.89 6.44 18.53 4 90.51 184.54 7.37 30.67 8 83.38 326.71 7.64 57.06 16 71.45 509.03 8.77 90.02 32 58.48 724.23 10.00 138.82 64 44.74 1,146.92 14.07 206.58 128 27.00 1,434.57 22.48 268.58 256 18.03 1,635.95 41.06 309.97 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.76 49.58 6.42 9.33 2 48.04 95.38 6.80 17.53 4 46.09 181.21 6.99 33.60 8 44.19 330.46 7.43 60.67 16 40.56 591.52 8.40 104.42 32 31.35 869.36 9.68 168.46 64 23.87 1062.52 12.57 201.11 128 16.86 1,452.66 17.64 276.09 256 9.84 1,792.81 30.08 347.26 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 51.30 50.46 4.63 12.75 2 51.06 97.86 5.07 23.14 4 47.52 186.75 5.30 44.48 8 43.55 305.45 5.68 75.18 16 36.49 505.11 6.71 127.88 32 29.02 768.40 8.84 177.03 64 18.57 735.37 14.55 168.00 128 12.59 809.50 21.27 186.76 256 6.54 859.45 38.69 200.42 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 122.46 101.28 4.31 13.21 2 114.38 177.67 5.70 17.78 4 107.48 367.88 5.09 45.22 8 95.32 644.56 7.23 62.61 16 82.42 1,036.84 7.91 62.61 32 66.46 1,529.28 10.12 145.82 64 45.70 1,924.84 12.43 206.26 128 33.96 2,546.35 18.22 272.53 256 23.86 2,914.77 30.75 298.88
Germany Central (Frankfurt)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 143.82 142.16 3.89 15.07 2 141.16 276.64 4.28 27.37 4 136.15 517.89 4.98 45.85 8 121.71 858.28 4.97 84.62 16 105.84 1,243.61 5.53 122.45 32 88.15 2,126.25 6.53 210.29 64 67.40 3,398.12 8.63 319.28 128 45.86 4,499.76 13.96 427.76 256 24.14 4,784.32 25.79 453.83 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 119.49 118.18 4.50 13.08 2 115.14 225.40 4.90 23.69 4 109.71 404.66 4.63 48.83 8 95.83 702.76 5.03 85.92 16 81.12 1,029.98 6.07 125.54 32 70.92 1,819.24 7.02 182.65 64 52.10 2,778.58 8.79 313.12 128 35.58 3,566.59 13.80 438.64 256 20.75 4,065.93 24.69 481.11 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.62 52.71 5.43 10.97 2 52.65 102.99 5.48 21.65 4 52.06 205.56 5.58 42.61 8 51.06 393.93 5.68 82.31 16 46.755 715.89 6.08 152.11 32 39.55 1,152.97 7.80 228.8 64 31.22 1,663.88 9.36 353.91 128 23.00 2,055.51 13.94 433.91 256 17.44 1,873.44 22.85 427.95 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.44 26.84 11.66 5.10 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.50 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.90 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.50 51.58 6.12 9.78 2 92.25 98.89 6.44 18.53 4 90.51 184.54 7.37 30.67 8 83.38 326.71 7.64 57.06 16 71.45 509.03 8.77 90.02 32 58.48 724.23 10.00 138.82 64 44.74 1,146.92 14.07 206.58 128 27.00 1,434.57 22.48 268.58 256 18.03 1,635.95 41.06 309.97 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.76 49.58 6.42 9.33 2 48.04 95.38 6.80 17.53 4 46.09 181.21 6.99 33.60 8 44.19 330.46 7.43 60.67 16 40.56 591.52 8.40 104.42 32 31.35 869.36 9.68 168.46 64 23.87 1062.52 12.57 201.11 128 16.86 1,452.66 17.64 276.09 256 9.84 1,792.81 30.08 347.26 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 51.30 50.46 4.63 12.75 2 51.06 97.86 5.07 23.14 4 47.52 186.75 5.30 44.48 8 43.55 305.45 5.68 75.18 16 36.49 505.11 6.71 127.88 32 29.02 768.40 8.84 177.03 64 18.57 735.37 14.55 168.00 128 12.59 809.50 21.27 186.76 256 6.54 859.45 38.69 200.42 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 122.46 101.28 4.31 13.21 2 114.38 177.67 5.70 17.78 4 107.48 367.88 5.09 45.22 8 95.32 644.56 7.23 62.61 16 82.42 1,036.84 7.91 62.61 32 66.46 1,529.28 10.12 145.82 64 45.70 1,924.84 12.43 206.26 128 33.96 2,546.35 18.22 272.53 256 23.86 2,914.77 30.75 298.88
Japan Central (Osaka)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 143.82 142.16 3.89 15.07 2 141.16 276.64 4.28 27.37 4 136.15 517.89 4.98 45.85 8 121.71 858.28 4.97 84.62 16 105.84 1,243.61 5.53 122.45 32 88.15 2,126.25 6.53 210.29 64 67.40 3,398.12 8.63 319.28 128 45.86 4,499.76 13.96 427.76 256 24.14 4,784.32 25.79 453.83 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 119.49 118.18 4.50 13.08 2 115.14 225.40 4.90 23.69 4 109.71 404.66 4.63 48.83 8 95.83 702.76 5.03 85.92 16 81.12 1,029.98 6.07 125.54 32 70.92 1,819.24 7.02 182.65 64 52.10 2,778.58 8.79 313.12 128 35.58 3,566.59 13.80 438.64 256 20.75 4,065.93 24.69 481.11 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.62 52.71 5.43 10.97 2 52.65 102.99 5.48 21.65 4 52.06 205.56 5.58 42.61 8 51.06 393.93 5.68 82.31 16 46.755 715.89 6.08 152.11 32 39.55 1,152.97 7.80 228.8 64 31.22 1,663.88 9.36 353.91 128 23.00 2,055.51 13.94 433.91 256 17.44 1,873.44 22.85 427.95 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 48.75 47.98 6.37 9.40 2 47.28 92.89 6.63 18.00 4 45.10 176.53 6.65 35.80 8 42.53 333.45 7.04 67.80 16 38.39 597.84 7.95 119.70 32 29.86 929.18 10.12 187.40 64 30.00 933.09 20.11 187.20 128 30.03 934.30 39.85 186.00 256 30.05 932.61 76.19 187.79 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.74 104.30 2.75 21.70 2 103.21 204.22 2.82 42.40 4 99.41 393.69 3.10 77.10 8 93.98 745.29 3.26 146.70 16 81.62 1,294.14 3.64 262.60 32 60.55 1,924.74 4.97 384.40 64 60.54 1,928.70 10.03 379.40 128 62.57 1,912.53 19.68 383.09 256 60.00 1,911.45 38.36 386.14 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.44 26.84 11.66 5.10 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.50 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.90 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.50 51.58 6.12 9.78 2 92.25 98.89 6.44 18.53 4 90.51 184.54 7.37 30.67 8 83.38 326.71 7.64 57.06 16 71.45 509.03 8.77 90.02 32 58.48 724.23 10.00 138.82 64 44.74 1,146.92 14.07 206.58 128 27.00 1,434.57 22.48 268.58 256 18.03 1,635.95 41.06 309.97 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 51.30 50.46 4.63 12.75 2 51.06 97.86 5.07 23.14 4 47.52 186.75 5.30 44.48 8 43.55 305.45 5.68 75.18 16 36.49 505.11 6.71 127.88 32 29.02 768.40 8.84 177.03 64 18.57 735.37 14.55 168.00 128 12.59 809.50 21.27 186.76 256 6.54 859.45 38.69 200.42
UK South (London)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 143.82 142.16 3.89 15.07 2 141.16 276.64 4.28 27.37 4 136.15 517.89 4.98 45.85 8 121.71 858.28 4.97 84.62 16 105.84 1,243.61 5.53 122.45 32 88.15 2,126.25 6.53 210.29 64 67.40 3,398.12 8.63 319.28 128 45.86 4,499.76 13.96 427.76 256 24.14 4,784.32 25.79 453.83 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 119.49 118.18 4.50 13.08 2 115.14 225.40 4.90 23.69 4 109.71 404.66 4.63 48.83 8 95.83 702.76 5.03 85.92 16 81.12 1,029.98 6.07 125.54 32 70.92 1,819.24 7.02 182.65 64 52.10 2,778.58 8.79 313.12 128 35.58 3,566.59 13.80 438.64 256 20.75 4,065.93 24.69 481.11 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.62 52.71 5.43 10.97 2 52.65 102.99 5.48 21.65 4 52.06 205.56 5.58 42.61 8 51.06 393.93 5.68 82.31 16 46.755 715.89 6.08 152.11 32 39.55 1,152.97 7.80 228.8 64 31.22 1,663.88 9.36 353.91 128 23.00 2,055.51 13.94 433.91 256 17.44 1,873.44 22.85 427.95 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 48.75 47.98 6.37 9.40 2 47.28 92.89 6.63 18.00 4 45.10 176.53 6.65 35.80 8 42.53 333.45 7.04 67.80 16 38.39 597.84 7.95 119.70 32 29.86 929.18 10.12 187.40 64 30.00 933.09 20.11 187.20 128 30.03 934.30 39.85 186.00 256 30.05 932.61 76.19 187.79 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.74 104.30 2.75 21.70 2 103.21 204.22 2.82 42.40 4 99.41 393.69 3.10 77.10 8 93.98 745.29 3.26 146.70 16 81.62 1,294.14 3.64 262.60 32 60.55 1,924.74 4.97 384.40 64 60.54 1,928.70 10.03 379.40 128 62.57 1,912.53 19.68 383.09 256 60.00 1,911.45 38.36 386.14 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.44 26.84 11.66 5.10 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.50 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.90 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.50 51.58 6.12 9.78 2 92.25 98.89 6.44 18.53 4 90.51 184.54 7.37 30.67 8 83.38 326.71 7.64 57.06 16 71.45 509.03 8.77 90.02 32 58.48 724.23 10.00 138.82 64 44.74 1,146.92 14.07 206.58 128 27.00 1,434.57 22.48 268.58 256 18.03 1,635.95 41.06 309.97 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.76 49.58 6.42 9.33 2 48.04 95.38 6.80 17.53 4 46.09 181.21 6.99 33.60 8 44.19 330.46 7.43 60.67 16 40.56 591.52 8.40 104.42 32 31.35 869.36 9.68 168.46 64 23.87 1062.52 12.57 201.11 128 16.86 1,452.66 17.64 276.09 256 9.84 1,792.81 30.08 347.26 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 51.30 50.46 4.63 12.75 2 51.06 97.86 5.07 23.14 4 47.52 186.75 5.30 44.48 8 43.55 305.45 5.68 75.18 16 36.49 505.11 6.71 127.88 32 29.02 768.40 8.84 177.03 64 18.57 735.37 14.55 168.00 128 12.59 809.50 21.27 186.76 256 6.54 859.45 38.69 200.42 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 122.46 101.28 4.31 13.21 2 114.38 177.67 5.70 17.78 4 107.48 367.88 5.09 45.22 8 95.32 644.56 7.23 62.61 16 82.42 1,036.84 7.91 62.61 32 66.46 1,529.28 10.12 145.82 64 45.70 1,924.84 12.43 206.26 128 33.96 2,546.35 18.22 272.53 256 23.86 2,914.77 30.75 298.88
US Midwest (Chicago)
- モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-08-2024
(Cohere Command R 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 143.82 142.16 3.89 15.07 2 141.16 276.64 4.28 27.37 4 136.15 517.89 4.98 45.85 8 121.71 858.28 4.97 84.62 16 105.84 1,243.61 5.53 122.45 32 88.15 2,126.25 6.53 210.29 64 67.40 3,398.12 8.63 319.28 128 45.86 4,499.76 13.96 427.76 256 24.14 4,784.32 25.79 453.83 - モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされる
cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 119.49 118.18 4.50 13.08 2 115.14 225.40 4.90 23.69 4 109.71 404.66 4.63 48.83 8 95.83 702.76 5.03 85.92 16 81.12 1,029.98 6.07 125.54 32 70.92 1,819.24 7.02 182.65 64 52.10 2,778.58 8.79 313.12 128 35.58 3,566.59 13.80 438.64 256 20.75 4,065.93 24.69 481.11 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.3-70b-instruct
(Meta Llama 3.3 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 53.62 52.71 5.43 10.97 2 52.65 102.99 5.48 21.65 4 52.06 205.56 5.58 42.61 8 51.06 393.93 5.68 82.31 16 46.755 715.89 6.08 152.11 32 39.55 1,152.97 7.80 228.8 64 31.22 1,663.88 9.36 353.91 128 23.00 2,055.51 13.94 433.91 256 17.44 1,873.44 22.85 427.95 - モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされる
meta.llama-3.2-90b-vision-instruct
(Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 48.75 47.98 6.37 9.40 2 47.28 92.89 6.63 18.00 4 45.10 176.53 6.65 35.80 8 42.53 333.45 7.04 67.80 16 38.39 597.84 7.95 119.70 32 29.86 929.18 10.12 187.40 64 30.00 933.09 20.11 187.20 128 30.03 934.30 39.85 186.00 256 30.05 932.61 76.19 187.79 - モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされる
meta.llama-3.2-11b-vision-instruct
(Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ) -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 105.74 104.30 2.75 21.70 2 103.21 204.22 2.82 42.40 4 99.41 393.69 3.10 77.10 8 93.98 745.29 3.26 146.70 16 81.62 1,294.14 3.64 262.60 32 60.55 1,924.74 4.97 384.40 64 60.54 1,928.70 10.03 379.40 128 62.57 1,912.53 19.68 383.09 256 60.00 1,911.45 38.36 386.14 - モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
重要
meta.llama-3.1-405b-instruct
モデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされている
meta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 27.44 26.84 11.66 5.10 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.50 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.90 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B))モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 95.50 51.58 6.12 9.78 2 92.25 98.89 6.44 18.53 4 90.51 184.54 7.37 30.67 8 83.38 326.71 7.64 57.06 16 71.45 509.03 8.77 90.02 32 58.48 724.23 10.00 138.82 64 44.74 1,146.92 14.07 206.58 128 27.00 1,434.57 22.48 268.58 256 18.03 1,635.95 41.06 309.97 - モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 30.51 30.36 10.47 5.73 2 28.85 57.37 11.09 10.68 4 27.99 108.49 11.13 21.08 8 25.61 196.68 13.27 34.65 16 21.97 318.82 15.36 56.37 32 16.01 428.45 18.55 82.88 64 11.60 563.70 24.31 108.58 128 7.50 650.40 40.64 40.64 256 4.58 927.31 67.42 172.42 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 51.30 50.46 4.63 12.75 2 51.06 97.86 5.07 23.14 4 47.52 186.75 5.30 44.48 8 43.55 305.45 5.68 75.18 16 36.49 505.11 6.71 127.88 32 29.02 768.40 8.84 177.03 64 18.57 735.37 14.55 168.00 128 12.59 809.50 21.27 186.76 256 6.54 859.45 38.69 200.42 - モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされる
cohere.command-r-plus
(Cohere Command R+)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 122.46 101.28 4.31 13.21 2 114.38 177.67 5.70 17.78 4 107.48 367.88 5.09 45.22 8 95.32 644.56 7.23 62.61 16 82.42 1,036.84 7.91 62.61 32 66.46 1,529.28 10.12 145.82 64 45.70 1,924.84 12.43 206.26 128 33.96 2,546.35 18.22 272.53 256 23.86 2,914.77 30.75 298.88 - モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされる
cohere.command
(Cohere Command 52 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 36.32 31.29 8.15 7.12 8 30.15 106.03 13.19 23.86 32 23.94 204.41 23.90 45.84 128 14.36 254.54 65.26 56.58 - モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされる
cohere.command-light
(Cohere Command Light 6 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 69.17 69.19 3.57 15.69 8 38.75 208.22 6.54 45.08 32 17.98 337.35 13.49 75.50 128 4.01 397.36 37.69 92.17 - モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされる
meta.llama-2-70b-chat
(Llama2 70 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 17.86 17.18 13.60 4.32 8 14.48 68.62 16.63 16.58 32 9.82 174.40 20.78 44.58 128 3.89 319.34 43.87 85.33