シナリオ1: 生成AIにおける確率的長さのベンチマーク

このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。このシナリオでは、プロンプトとレスポンスの長さが不明なため、確率的アプローチを使用して、プロンプトとレスポンスの長さの両方が正規分布に従います。

  • プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います
  • レスポンスの長さは、平均300トークンと標準偏差150トークンの正規分布に従います。
重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。融合シナリオは次の領域で実行されます。

ブラジル東部(サンパウロ)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 143.82 142.16 3.89 15.07
2 141.16 276.64 4.28 27.37
4 136.15 517.89 4.98 45.85
8 121.71 858.28 4.97 84.62
16 105.84 1,243.61 5.53 122.45
32 88.15 2,126.25 6.53 210.29
64 67.40 3,398.12 8.63 319.28
128 45.86 4,499.76 13.96 427.76
256 24.14 4,784.32 25.79 453.83
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 119.49 118.18 4.50 13.08
2 115.14 225.40 4.90 23.69
4 109.71 404.66 4.63 48.83
8 95.83 702.76 5.03 85.92
16 81.12 1,029.98 6.07 125.54
32 70.92 1,819.24 7.02 182.65
64 52.10 2,778.58 8.79 313.12
128 35.58 3,566.59 13.80 438.64
256 20.75 4,065.93 24.69 481.11
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.62 52.71 5.43 10.97
2 52.65 102.99 5.48 21.65
4 52.06 205.56 5.58 42.61
8 51.06 393.93 5.68 82.31
16 46.755 715.89 6.08 152.11
32 39.55 1,152.97 7.80 228.8
64 31.22 1,663.88 9.36 353.91
128 23.00 2,055.51 13.94 433.91
256 17.44 1,873.44 22.85 427.95
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 48.75 47.98 6.37 9.40
2 47.28 92.89 6.63 18.00
4 45.10 176.53 6.65 35.80
8 42.53 333.45 7.04 67.80
16 38.39 597.84 7.95 119.70
32 29.86 929.18 10.12 187.40
64 30.00 933.09 20.11 187.20
128 30.03 934.30 39.85 186.00
256 30.05 932.61 76.19 187.79
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 105.74 104.30 2.75 21.70
2 103.21 204.22 2.82 42.40
4 99.41 393.69 3.10 77.10
8 93.98 745.29 3.26 146.70
16 81.62 1,294.14 3.64 262.60
32 60.55 1,924.74 4.97 384.40
64 60.54 1,928.70 10.03 379.40
128 62.57 1,912.53 19.68 383.09
256 60.00 1,911.45 38.36 386.14
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.44 26.84 11.66 5.10
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.50 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.90 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.50 51.58 6.12 9.78
2 92.25 98.89 6.44 18.53
4 90.51 184.54 7.37 30.67
8 83.38 326.71 7.64 57.06
16 71.45 509.03 8.77 90.02
32 58.48 724.23 10.00 138.82
64 44.74 1,146.92 14.07 206.58
128 27.00 1,434.57 22.48 268.58
256 18.03 1,635.95 41.06 309.97
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.76 49.58 6.42 9.33
2 48.04 95.38 6.80 17.53
4 46.09 181.21 6.99 33.60
8 44.19 330.46 7.43 60.67
16 40.56 591.52 8.40 104.42
32 31.35 869.36 9.68 168.46
64 23.87 1062.52 12.57 201.11
128 16.86 1,452.66 17.64 276.09
256 9.84 1,792.81 30.08 347.26
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 122.46 101.28 4.31 13.21
2 114.38 177.67 5.70 17.78
4 107.48 367.88 5.09 45.22
8 95.32 644.56 7.23 62.61
16 82.42 1,036.84 7.91 62.61
32 66.46 1,529.28 10.12 145.82
64 45.70 1,924.84 12.43 206.26
128 33.96 2,546.35 18.22 272.53
256 23.86 2,914.77 30.75 298.88

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 143.82 142.16 3.89 15.07
2 141.16 276.64 4.28 27.37
4 136.15 517.89 4.98 45.85
8 121.71 858.28 4.97 84.62
16 105.84 1,243.61 5.53 122.45
32 88.15 2,126.25 6.53 210.29
64 67.40 3,398.12 8.63 319.28
128 45.86 4,499.76 13.96 427.76
256 24.14 4,784.32 25.79 453.83
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 119.49 118.18 4.50 13.08
2 115.14 225.40 4.90 23.69
4 109.71 404.66 4.63 48.83
8 95.83 702.76 5.03 85.92
16 81.12 1,029.98 6.07 125.54
32 70.92 1,819.24 7.02 182.65
64 52.10 2,778.58 8.79 313.12
128 35.58 3,566.59 13.80 438.64
256 20.75 4,065.93 24.69 481.11
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.62 52.71 5.43 10.97
2 52.65 102.99 5.48 21.65
4 52.06 205.56 5.58 42.61
8 51.06 393.93 5.68 82.31
16 46.755 715.89 6.08 152.11
32 39.55 1,152.97 7.80 228.8
64 31.22 1,663.88 9.36 353.91
128 23.00 2,055.51 13.94 433.91
256 17.44 1,873.44 22.85 427.95
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.44 26.84 11.66 5.10
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.50 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.90 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.50 51.58 6.12 9.78
2 92.25 98.89 6.44 18.53
4 90.51 184.54 7.37 30.67
8 83.38 326.71 7.64 57.06
16 71.45 509.03 8.77 90.02
32 58.48 724.23 10.00 138.82
64 44.74 1,146.92 14.07 206.58
128 27.00 1,434.57 22.48 268.58
256 18.03 1,635.95 41.06 309.97
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.76 49.58 6.42 9.33
2 48.04 95.38 6.80 17.53
4 46.09 181.21 6.99 33.60
8 44.19 330.46 7.43 60.67
16 40.56 591.52 8.40 104.42
32 31.35 869.36 9.68 168.46
64 23.87 1062.52 12.57 201.11
128 16.86 1,452.66 17.64 276.09
256 9.84 1,792.81 30.08 347.26
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 122.46 101.28 4.31 13.21
2 114.38 177.67 5.70 17.78
4 107.48 367.88 5.09 45.22
8 95.32 644.56 7.23 62.61
16 82.42 1,036.84 7.91 62.61
32 66.46 1,529.28 10.12 145.82
64 45.70 1,924.84 12.43 206.26
128 33.96 2,546.35 18.22 272.53
256 23.86 2,914.77 30.75 298.88

Japan Central (Osaka)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 143.82 142.16 3.89 15.07
2 141.16 276.64 4.28 27.37
4 136.15 517.89 4.98 45.85
8 121.71 858.28 4.97 84.62
16 105.84 1,243.61 5.53 122.45
32 88.15 2,126.25 6.53 210.29
64 67.40 3,398.12 8.63 319.28
128 45.86 4,499.76 13.96 427.76
256 24.14 4,784.32 25.79 453.83
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 119.49 118.18 4.50 13.08
2 115.14 225.40 4.90 23.69
4 109.71 404.66 4.63 48.83
8 95.83 702.76 5.03 85.92
16 81.12 1,029.98 6.07 125.54
32 70.92 1,819.24 7.02 182.65
64 52.10 2,778.58 8.79 313.12
128 35.58 3,566.59 13.80 438.64
256 20.75 4,065.93 24.69 481.11
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.62 52.71 5.43 10.97
2 52.65 102.99 5.48 21.65
4 52.06 205.56 5.58 42.61
8 51.06 393.93 5.68 82.31
16 46.755 715.89 6.08 152.11
32 39.55 1,152.97 7.80 228.8
64 31.22 1,663.88 9.36 353.91
128 23.00 2,055.51 13.94 433.91
256 17.44 1,873.44 22.85 427.95
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 48.75 47.98 6.37 9.40
2 47.28 92.89 6.63 18.00
4 45.10 176.53 6.65 35.80
8 42.53 333.45 7.04 67.80
16 38.39 597.84 7.95 119.70
32 29.86 929.18 10.12 187.40
64 30.00 933.09 20.11 187.20
128 30.03 934.30 39.85 186.00
256 30.05 932.61 76.19 187.79
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 105.74 104.30 2.75 21.70
2 103.21 204.22 2.82 42.40
4 99.41 393.69 3.10 77.10
8 93.98 745.29 3.26 146.70
16 81.62 1,294.14 3.64 262.60
32 60.55 1,924.74 4.97 384.40
64 60.54 1,928.70 10.03 379.40
128 62.57 1,912.53 19.68 383.09
256 60.00 1,911.45 38.36 386.14
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.44 26.84 11.66 5.10
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.50 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.90 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.50 51.58 6.12 9.78
2 92.25 98.89 6.44 18.53
4 90.51 184.54 7.37 30.67
8 83.38 326.71 7.64 57.06
16 71.45 509.03 8.77 90.02
32 58.48 724.23 10.00 138.82
64 44.74 1,146.92 14.07 206.58
128 27.00 1,434.57 22.48 268.58
256 18.03 1,635.95 41.06 309.97
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42

UK South (London)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 143.82 142.16 3.89 15.07
2 141.16 276.64 4.28 27.37
4 136.15 517.89 4.98 45.85
8 121.71 858.28 4.97 84.62
16 105.84 1,243.61 5.53 122.45
32 88.15 2,126.25 6.53 210.29
64 67.40 3,398.12 8.63 319.28
128 45.86 4,499.76 13.96 427.76
256 24.14 4,784.32 25.79 453.83
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 119.49 118.18 4.50 13.08
2 115.14 225.40 4.90 23.69
4 109.71 404.66 4.63 48.83
8 95.83 702.76 5.03 85.92
16 81.12 1,029.98 6.07 125.54
32 70.92 1,819.24 7.02 182.65
64 52.10 2,778.58 8.79 313.12
128 35.58 3,566.59 13.80 438.64
256 20.75 4,065.93 24.69 481.11
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.62 52.71 5.43 10.97
2 52.65 102.99 5.48 21.65
4 52.06 205.56 5.58 42.61
8 51.06 393.93 5.68 82.31
16 46.755 715.89 6.08 152.11
32 39.55 1,152.97 7.80 228.8
64 31.22 1,663.88 9.36 353.91
128 23.00 2,055.51 13.94 433.91
256 17.44 1,873.44 22.85 427.95
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 48.75 47.98 6.37 9.40
2 47.28 92.89 6.63 18.00
4 45.10 176.53 6.65 35.80
8 42.53 333.45 7.04 67.80
16 38.39 597.84 7.95 119.70
32 29.86 929.18 10.12 187.40
64 30.00 933.09 20.11 187.20
128 30.03 934.30 39.85 186.00
256 30.05 932.61 76.19 187.79
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 105.74 104.30 2.75 21.70
2 103.21 204.22 2.82 42.40
4 99.41 393.69 3.10 77.10
8 93.98 745.29 3.26 146.70
16 81.62 1,294.14 3.64 262.60
32 60.55 1,924.74 4.97 384.40
64 60.54 1,928.70 10.03 379.40
128 62.57 1,912.53 19.68 383.09
256 60.00 1,911.45 38.36 386.14
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.44 26.84 11.66 5.10
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.50 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.90 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.50 51.58 6.12 9.78
2 92.25 98.89 6.44 18.53
4 90.51 184.54 7.37 30.67
8 83.38 326.71 7.64 57.06
16 71.45 509.03 8.77 90.02
32 58.48 724.23 10.00 138.82
64 44.74 1,146.92 14.07 206.58
128 27.00 1,434.57 22.48 268.58
256 18.03 1,635.95 41.06 309.97
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.76 49.58 6.42 9.33
2 48.04 95.38 6.80 17.53
4 46.09 181.21 6.99 33.60
8 44.19 330.46 7.43 60.67
16 40.56 591.52 8.40 104.42
32 31.35 869.36 9.68 168.46
64 23.87 1062.52 12.57 201.11
128 16.86 1,452.66 17.64 276.09
256 9.84 1,792.81 30.08 347.26
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 122.46 101.28 4.31 13.21
2 114.38 177.67 5.70 17.78
4 107.48 367.88 5.09 45.22
8 95.32 644.56 7.23 62.61
16 82.42 1,036.84 7.91 62.61
32 66.46 1,529.28 10.12 145.82
64 45.70 1,924.84 12.43 206.26
128 33.96 2,546.35 18.22 272.53
256 23.86 2,914.77 30.75 298.88

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 143.82 142.16 3.89 15.07
2 141.16 276.64 4.28 27.37
4 136.15 517.89 4.98 45.85
8 121.71 858.28 4.97 84.62
16 105.84 1,243.61 5.53 122.45
32 88.15 2,126.25 6.53 210.29
64 67.40 3,398.12 8.63 319.28
128 45.86 4,499.76 13.96 427.76
256 24.14 4,784.32 25.79 453.83
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 119.49 118.18 4.50 13.08
2 115.14 225.40 4.90 23.69
4 109.71 404.66 4.63 48.83
8 95.83 702.76 5.03 85.92
16 81.12 1,029.98 6.07 125.54
32 70.92 1,819.24 7.02 182.65
64 52.10 2,778.58 8.79 313.12
128 35.58 3,566.59 13.80 438.64
256 20.75 4,065.93 24.69 481.11
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.62 52.71 5.43 10.97
2 52.65 102.99 5.48 21.65
4 52.06 205.56 5.58 42.61
8 51.06 393.93 5.68 82.31
16 46.755 715.89 6.08 152.11
32 39.55 1,152.97 7.80 228.8
64 31.22 1,663.88 9.36 353.91
128 23.00 2,055.51 13.94 433.91
256 17.44 1,873.44 22.85 427.95
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 48.75 47.98 6.37 9.40
2 47.28 92.89 6.63 18.00
4 45.10 176.53 6.65 35.80
8 42.53 333.45 7.04 67.80
16 38.39 597.84 7.95 119.70
32 29.86 929.18 10.12 187.40
64 30.00 933.09 20.11 187.20
128 30.03 934.30 39.85 186.00
256 30.05 932.61 76.19 187.79
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 105.74 104.30 2.75 21.70
2 103.21 204.22 2.82 42.40
4 99.41 393.69 3.10 77.10
8 93.98 745.29 3.26 146.70
16 81.62 1,294.14 3.64 262.60
32 60.55 1,924.74 4.97 384.40
64 60.54 1,928.70 10.03 379.40
128 62.57 1,912.53 19.68 383.09
256 60.00 1,911.45 38.36 386.14
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.44 26.84 11.66 5.10
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.50 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.90 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.50 51.58 6.12 9.78
2 92.25 98.89 6.44 18.53
4 90.51 184.54 7.37 30.67
8 83.38 326.71 7.64 57.06
16 71.45 509.03 8.77 90.02
32 58.48 724.23 10.00 138.82
64 44.74 1,146.92 14.07 206.58
128 27.00 1,434.57 22.48 268.58
256 18.03 1,635.95 41.06 309.97
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 30.51 30.36 10.47 5.73
2 28.85 57.37 11.09 10.68
4 27.99 108.49 11.13 21.08
8 25.61 196.68 13.27 34.65
16 21.97 318.82 15.36 56.37
32 16.01 428.45 18.55 82.88
64 11.60 563.70 24.31 108.58
128 7.50 650.40 40.64 40.64
256 4.58 927.31 67.42 172.42
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 122.46 101.28 4.31 13.21
2 114.38 177.67 5.70 17.78
4 107.48 367.88 5.09 45.22
8 95.32 644.56 7.23 62.61
16 82.42 1,036.84 7.91 62.61
32 66.46 1,529.28 10.12 145.82
64 45.70 1,924.84 12.43 206.26
128 33.96 2,546.35 18.22 272.53
256 23.86 2,914.77 30.75 298.88
モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 36.32 31.29 8.15 7.12
8 30.15 106.03 13.19 23.86
32 23.94 204.41 23.90 45.84
128 14.36 254.54 65.26 56.58
モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 69.17 69.19 3.57 15.69
8 38.75 208.22 6.54 45.08
32 17.98 337.35 13.49 75.50
128 4.01 397.36 37.69 92.17
モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされるmeta.llama-2-70b-chat (Llama2 70 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 17.86 17.18 13.60 4.32
8 14.48 68.62 16.63 16.58
32 9.82 174.40 20.78 44.58
128 3.89 319.34 43.87 85.33