シナリオ3: 生成AIにおける世代重視のベンチマーク

世代重視のシナリオは、世代/モデル・レスポンスの多いユースケースです。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。

生成量の多いシナリオは、次のトークン長で実行されます。

  • プロンプトの長さは100トークンに固定されています
  • レスポンスの長さは1,000トークンに固定されます
重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。生成の重いシナリオは次のリージョンで実行されます。

ブラジル東部(サンパウロ)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 147.84 148.54 8.18 7.25
2 146.96 292.45 10.59 11.16
4 139.14 520.57 8.46 26.20
8 128.71 923.73 9.73 43.55
16 122.33 1,631.48 10.76 73.30
32 114.14 2,586.64 12.99 102.60
64 95.98 4,124.24 13.42 186.47
128 69.06 6,366.06 19.24 285.92
256 40.02 6,973.92 35.71 305.09
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 132.10 131.90 16.12 3.70
2 130.10 256.33 15.61 7.62
4 125.23 495.22 17.36 13.61
8 111.15 832.88 18.74 23.87
16 104.75 1,375.51 21.45 36.61
32 100.82 2,974.72 21.65 81.76
64 79.67 4,635.15 26.36 131.98
128 60.49 6,290.61 37.0 171.76
256 31.69 7,010.75 62.48 196.58
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.55 53.21 18.70 3.19
2 52.83 103.10 18.97 6.19
4 53.40 206.18 18.77 12.37
8 53.25 412.36 18.85 24.74
16 51.53 812.24 19.48 48.73
32 45.99 1,447.02 21.861 86.82
64 45.99 2,599.88 23.81 156.00
128 34.76 4,216.35 29.32 252.98
256 23.72 3,826.77 44.02 229.61
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.15 48.33 20.37 2.90
2 48.73 96.67 20.57 2.90
4 48.17 186.67 20.85 11.20
8 47.53 373.33 21.20 22.40
16 46.69 720.00 21.75 43.20
32 41.65 1,279.99 24.54 76.80
64 41.92 1,279.98 47.75 76.80
128 41.93 1,279.96 91.49 76.80
256 41.88 1,279.93 166.93 76.80
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 106.36 105.00 9.41 6.30
2 104.89 206.67 9.55 12.40
4 101.93 400.00 9.84 24.00
8 98.89 773.33 10.17 46.40
16 91.20 1,439.99 11.07 86.40
32 72.13 2,239.98 14.03 134.40
64 72.29 2,293.30 27.49 137.60
128 72.30 2,239.89 53.75 134.39
256 72.27 2,239.84 102.37 134.39
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.35 26.65 36.65 1.60
2 26.72 49.97 37.53 3.00
4 26.21 99.94 38.27 6.00
8 26.42 199.89 38.00 11.99
16 22.60 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.10 1,177.63 50.14 70.66
128 17.06 2,086.85 60.70 125.21
256 11.05 2,024.72 109.59 121.48
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 31.28 26.55 18.50 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.20 170.20 19.40 21.40
16 26.37 271.80 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168.00
256 11.27 1,794.88 44.85 236.65
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.37 52.01 19.56 3.07
2 92.77 101.29 20.04 5.98
4 91.60 191.83 20.34 11.32
8 86.83 338.87 21.51 19.97
16 78.12 547.34 23.92 32.23
32 64.77 1,111.24 28.91 65.46
64 50.52 1,722.11 37.23 101.48
128 31.29 2,123.49 60.17 125.12
256 14.93 2,002.12 126.87 117.98
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 50.18 50.14 20.43 2.94
2 49.28 97.61 20.78 5.72
4 48.22 186.82 21.32 10.94
8 47.20 365.89 21.75 21.43
16 44.69 650.22 22.89 38.03
32 37.29 989.98 27.31 58.04
64 29.53 1621.76 32.68 95.08
128 19.17 1784.76 53.14 104.56
256 10.79 2271.18 94.78 133.05
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 126.40 110.90 13.07 4.57
2 122.93 213.92 13.33 8.87
4 117.03 403.27 15.32 15.26
8 106.11 707.45 16.86 26.78
16 98.06 1,258.94 18.22 47.94
32 86.74 2,147.82 21.04 79.38
64 72.43 3,011.59 25.50 107.48
128 55.80 5,058.49 32.38 191.22
256 36.56 5,025.93 52.34 189.68

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 147.84 148.54 8.18 7.25
2 146.96 292.45 10.59 11.16
4 139.14 520.57 8.46 26.20
8 128.71 923.73 9.73 43.55
16 122.33 1,631.48 10.76 73.30
32 114.14 2,586.64 12.99 102.60
64 95.98 4,124.24 13.42 186.47
128 69.06 6,366.06 19.24 285.92
256 40.02 6,973.92 35.71 305.09
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 132.10 131.90 16.12 3.70
2 130.10 256.33 15.61 7.62
4 125.23 495.22 17.36 13.61
8 111.15 832.88 18.74 23.87
16 104.75 1,375.51 21.45 36.61
32 100.82 2,974.72 21.65 81.76
64 79.67 4,635.15 26.36 131.98
128 60.49 6,290.61 37.0 171.76
256 31.69 7,010.75 62.48 196.58
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.55 53.21 18.70 3.19
2 52.83 103.10 18.97 6.19
4 53.40 206.18 18.77 12.37
8 53.25 412.36 18.85 24.74
16 51.53 812.24 19.48 48.73
32 45.99 1,447.02 21.861 86.82
64 45.99 2,599.88 23.81 156.00
128 34.76 4,216.35 29.32 252.98
256 23.72 3,826.77 44.02 229.61
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.35 26.65 36.65 1.60
2 26.72 49.97 37.53 3.00
4 26.21 99.94 38.27 6.00
8 26.42 199.89 38.00 11.99
16 22.60 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.10 1,177.63 50.14 70.66
128 17.06 2,086.85 60.70 125.21
256 11.05 2,024.72 109.59 121.48
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 31.28 26.55 18.50 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.20 170.20 19.40 21.40
16 26.37 271.80 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168.00
256 11.27 1,794.88 44.85 236.65
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.37 52.01 19.56 3.07
2 92.77 101.29 20.04 5.98
4 91.60 191.83 20.34 11.32
8 86.83 338.87 21.51 19.97
16 78.12 547.34 23.92 32.23
32 64.77 1,111.24 28.91 65.46
64 50.52 1,722.11 37.23 101.48
128 31.29 2,123.49 60.17 125.12
256 14.93 2,002.12 126.87 117.98
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 50.18 50.14 20.43 2.94
2 49.28 97.61 20.78 5.72
4 48.22 186.82 21.32 10.94
8 47.20 365.89 21.75 21.43
16 44.69 650.22 22.89 38.03
32 37.29 989.98 27.31 58.04
64 29.53 1621.76 32.68 95.08
128 19.17 1784.76 53.14 104.56
256 10.79 2271.18 94.78 133.05
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 126.40 110.90 13.07 4.57
2 122.93 213.92 13.33 8.87
4 117.03 403.27 15.32 15.26
8 106.11 707.45 16.86 26.78
16 98.06 1,258.94 18.22 47.94
32 86.74 2,147.82 21.04 79.38
64 72.43 3,011.59 25.50 107.48
128 55.80 5,058.49 32.38 191.22
256 36.56 5,025.93 52.34 189.68

Japan Central (Osaka)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 147.84 148.54 8.18 7.25
2 146.96 292.45 10.59 11.16
4 139.14 520.57 8.46 26.20
8 128.71 923.73 9.73 43.55
16 122.33 1,631.48 10.76 73.30
32 114.14 2,586.64 12.99 102.60
64 95.98 4,124.24 13.42 186.47
128 69.06 6,366.06 19.24 285.92
256 40.02 6,973.92 35.71 305.09
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 132.10 131.90 16.12 3.70
2 130.10 256.33 15.61 7.62
4 125.23 495.22 17.36 13.61
8 111.15 832.88 18.74 23.87
16 104.75 1,375.51 21.45 36.61
32 100.82 2,974.72 21.65 81.76
64 79.67 4,635.15 26.36 131.98
128 60.49 6,290.61 37.0 171.76
256 31.69 7,010.75 62.48 196.58
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.55 53.21 18.70 3.19
2 52.83 103.10 18.97 6.19
4 53.40 206.18 18.77 12.37
8 53.25 412.36 18.85 24.74
16 51.53 812.24 19.48 48.73
32 45.99 1,447.02 21.861 86.82
64 45.99 2,599.88 23.81 156.00
128 34.76 4,216.35 29.32 252.98
256 23.72 3,826.77 44.02 229.61
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.15 48.33 20.37 2.90
2 48.73 96.67 20.57 2.90
4 48.17 186.67 20.85 11.20
8 47.53 373.33 21.20 22.40
16 46.69 720.00 21.75 43.20
32 41.65 1,279.99 24.54 76.80
64 41.92 1,279.98 47.75 76.80
128 41.93 1,279.96 91.49 76.80
256 41.88 1,279.93 166.93 76.80
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 106.36 105.00 9.41 6.30
2 104.89 206.67 9.55 12.40
4 101.93 400.00 9.84 24.00
8 98.89 773.33 10.17 46.40
16 91.20 1,439.99 11.07 86.40
32 72.13 2,239.98 14.03 134.40
64 72.29 2,293.30 27.49 137.60
128 72.30 2,239.89 53.75 134.39
256 72.27 2,239.84 102.37 134.39
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.35 26.65 36.65 1.60
2 26.72 49.97 37.53 3.00
4 26.21 99.94 38.27 6.00
8 26.42 199.89 38.00 11.99
16 22.60 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.10 1,177.63 50.14 70.66
128 17.06 2,086.85 60.70 125.21
256 11.05 2,024.72 109.59 121.48
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 31.28 26.55 18.50 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.20 170.20 19.40 21.40
16 26.37 271.80 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168.00
256 11.27 1,794.88 44.85 236.65
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.37 52.01 19.56 3.07
2 92.77 101.29 20.04 5.98
4 91.60 191.83 20.34 11.32
8 86.83 338.87 21.51 19.97
16 78.12 547.34 23.92 32.23
32 64.77 1,111.24 28.91 65.46
64 50.52 1,722.11 37.23 101.48
128 31.29 2,123.49 60.17 125.12
256 14.93 2,002.12 126.87 117.98
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 126.40 110.90 13.07 4.57
2 122.93 213.92 13.33 8.87
4 117.03 403.27 15.32 15.26
8 106.11 707.45 16.86 26.78
16 98.06 1,258.94 18.22 47.94
32 86.74 2,147.82 21.04 79.38
64 72.43 3,011.59 25.50 107.48
128 55.80 5,058.49 32.38 191.22
256 36.56 5,025.93 52.34 189.68

UK South (London)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 147.84 148.54 8.18 7.25
2 146.96 292.45 10.59 11.16
4 139.14 520.57 8.46 26.20
8 128.71 923.73 9.73 43.55
16 122.33 1,631.48 10.76 73.30
32 114.14 2,586.64 12.99 102.60
64 95.98 4,124.24 13.42 186.47
128 69.06 6,366.06 19.24 285.92
256 40.02 6,973.92 35.71 305.09
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 132.10 131.90 16.12 3.70
2 130.10 256.33 15.61 7.62
4 125.23 495.22 17.36 13.61
8 111.15 832.88 18.74 23.87
16 104.75 1,375.51 21.45 36.61
32 100.82 2,974.72 21.65 81.76
64 79.67 4,635.15 26.36 131.98
128 60.49 6,290.61 37.0 171.76
256 31.69 7,010.75 62.48 196.58
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.55 53.21 18.70 3.19
2 52.83 103.10 18.97 6.19
4 53.40 206.18 18.77 12.37
8 53.25 412.36 18.85 24.74
16 51.53 812.24 19.48 48.73
32 45.99 1,447.02 21.861 86.82
64 45.99 2,599.88 23.81 156.00
128 34.76 4,216.35 29.32 252.98
256 23.72 3,826.77 44.02 229.61
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.15 48.33 20.37 2.90
2 48.73 96.67 20.57 2.90
4 48.17 186.67 20.85 11.20
8 47.53 373.33 21.20 22.40
16 46.69 720.00 21.75 43.20
32 41.65 1,279.99 24.54 76.80
64 41.92 1,279.98 47.75 76.80
128 41.93 1,279.96 91.49 76.80
256 41.88 1,279.93 166.93 76.80
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 106.36 105.00 9.41 6.30
2 104.89 206.67 9.55 12.40
4 101.93 400.00 9.84 24.00
8 98.89 773.33 10.17 46.40
16 91.20 1,439.99 11.07 86.40
32 72.13 2,239.98 14.03 134.40
64 72.29 2,293.30 27.49 137.60
128 72.30 2,239.89 53.75 134.39
256 72.27 2,239.84 102.37 134.39
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.35 26.65 36.65 1.60
2 26.72 49.97 37.53 3.00
4 26.21 99.94 38.27 6.00
8 26.42 199.89 38.00 11.99
16 22.60 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.10 1,177.63 50.14 70.66
128 17.06 2,086.85 60.70 125.21
256 11.05 2,024.72 109.59 121.48
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 31.28 26.55 18.50 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.20 170.20 19.40 21.40
16 26.37 271.80 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168.00
256 11.27 1,794.88 44.85 236.65
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.37 52.01 19.56 3.07
2 92.77 101.29 20.04 5.98
4 91.60 191.83 20.34 11.32
8 86.83 338.87 21.51 19.97
16 78.12 547.34 23.92 32.23
32 64.77 1,111.24 28.91 65.46
64 50.52 1,722.11 37.23 101.48
128 31.29 2,123.49 60.17 125.12
256 14.93 2,002.12 126.87 117.98
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 50.18 50.14 20.43 2.94
2 49.28 97.61 20.78 5.72
4 48.22 186.82 21.32 10.94
8 47.20 365.89 21.75 21.43
16 44.69 650.22 22.89 38.03
32 37.29 989.98 27.31 58.04
64 29.53 1621.76 32.68 95.08
128 19.17 1784.76 53.14 104.56
256 10.79 2271.18 94.78 133.05
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 126.40 110.90 13.07 4.57
2 122.93 213.92 13.33 8.87
4 117.03 403.27 15.32 15.26
8 106.11 707.45 16.86 26.78
16 98.06 1,258.94 18.22 47.94
32 86.74 2,147.82 21.04 79.38
64 72.43 3,011.59 25.50 107.48
128 55.80 5,058.49 32.38 191.22
256 36.56 5,025.93 52.34 189.68

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 147.84 148.54 8.18 7.25
2 146.96 292.45 10.59 11.16
4 139.14 520.57 8.46 26.20
8 128.71 923.73 9.73 43.55
16 122.33 1,631.48 10.76 73.30
32 114.14 2,586.64 12.99 102.60
64 95.98 4,124.24 13.42 186.47
128 69.06 6,366.06 19.24 285.92
256 40.02 6,973.92 35.71 305.09
モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 132.10 131.90 16.12 3.70
2 130.10 256.33 15.61 7.62
4 125.23 495.22 17.36 13.61
8 111.15 832.88 18.74 23.87
16 104.75 1,375.51 21.45 36.61
32 100.82 2,974.72 21.65 81.76
64 79.67 4,635.15 26.36 131.98
128 60.49 6,290.61 37.0 171.76
256 31.69 7,010.75 62.48 196.58
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 53.55 53.21 18.70 3.19
2 52.83 103.10 18.97 6.19
4 53.40 206.18 18.77 12.37
8 53.25 412.36 18.85 24.74
16 51.53 812.24 19.48 48.73
32 45.99 1,447.02 21.861 86.82
64 45.99 2,599.88 23.81 156.00
128 34.76 4,216.35 29.32 252.98
256 23.72 3,826.77 44.02 229.61
モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.15 48.33 20.37 2.90
2 48.73 96.67 20.57 2.90
4 48.17 186.67 20.85 11.20
8 47.53 373.33 21.20 22.40
16 46.69 720.00 21.75 43.20
32 41.65 1,279.99 24.54 76.80
64 41.92 1,279.98 47.75 76.80
128 41.93 1,279.96 91.49 76.80
256 41.88 1,279.93 166.93 76.80
モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 106.36 105.00 9.41 6.30
2 104.89 206.67 9.55 12.40
4 101.93 400.00 9.84 24.00
8 98.89 773.33 10.17 46.40
16 91.20 1,439.99 11.07 86.40
32 72.13 2,239.98 14.03 134.40
64 72.29 2,293.30 27.49 137.60
128 72.30 2,239.89 53.75 134.39
256 72.27 2,239.84 102.37 134.39
モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。

同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 27.35 26.65 36.65 1.60
2 26.72 49.97 37.53 3.00
4 26.21 99.94 38.27 6.00
8 26.42 199.89 38.00 11.99
16 22.60 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.10 1,177.63 50.14 70.66
128 17.06 2,086.85 60.70 125.21
256 11.05 2,024.72 109.59 121.48
モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 31.28 26.55 18.50 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.20 170.20 19.40 21.40
16 26.37 271.80 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168.00
256 11.27 1,794.88 44.85 236.65
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 95.37 52.01 19.56 3.07
2 92.77 101.29 20.04 5.98
4 91.60 191.83 20.34 11.32
8 86.83 338.87 21.51 19.97
16 78.12 547.34 23.92 32.23
32 64.77 1,111.24 28.91 65.46
64 50.52 1,722.11 37.23 101.48
128 31.29 2,123.49 60.17 125.12
256 14.93 2,002.12 126.87 117.98
モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 30.53 30.51 33.58 1.79
2 29.78 59.01 34.42 3.45
4 28.88 112.35 35.48 6.58
8 27.67 215.18 36.99 12.61
16 24.85 364.06 40.99 21.34
32 20.51 552.34 49.60 32.35
64 16.12 900.39 59.36 52.72
128 10.17 980.45 100.27 57.43
256 6.30 1334.59 162.08 78.19
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54
モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 126.40 110.90 13.07 4.57
2 122.93 213.92 13.33 8.87
4 117.03 403.27 15.32 15.26
8 106.11 707.45 16.86 26.78
16 98.06 1,258.94 18.22 47.94
32 86.74 2,147.82 21.04 79.38
64 72.43 3,011.59 25.50 107.48
128 55.80 5,058.49 32.38 191.22
256 36.56 5,025.93 52.34 189.68
モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 35.78 33.43 10.98 5.33
8 31.41 99.67 13.87 16.61
32 28.49 237.1 19.48 40.24
128 23.01 326.93 53.13 54.89
モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 80.38 83.61 9.19 6.34
8 45.96 278.91 13.89 22.46
32 23.90 493.78 27.34 41.13
128 5.12 565.06 82.15 44.89
モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされるmeta.llama-2-70b-chat (Llama2 70 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 18.12 17.58 21.44 2.72
8 15.96 64.28 26.83 8.91
32 13.72 195.48 29.43 27.99
128 8.61 541.75 48.50 71.52