シナリオ2: 生成AIでのRetrieval-Augmented Generation (RAG)ベンチマーク

RAGシナリオには、非常に長いプロンプトと短い応答があります。このシナリオでは、サマリーのユースケースも模倣します。

プロンプトの長さは2,000トークンに固定されています。
レスポンスの長さは200トークンに固定されます。

重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

同時リクエストの数。
プロンプト内のトークンの数。
レスポンス内のトークンの数。
リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。取得拡張生成シナリオは、次のリージョンで実行されます。

ブラジル東部(サンパウロ)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	136.91	133.84	3.19	18.35
2	128.58	250.14	3.40	34.21
4	114.22	434.70	3.81	59.56
8	93.74	680.93	4.67	92.38
16	71.06	1,007.40	5.96	138.94
32	50.30	1,561.75	8.74	212.91
64	30.71	1,922.54	14.28	262.99
128	17.99	2,043.92	25.57	279.72
256	8.83	2,061.45	46.83	281.73

モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.30	103.49	4.27	13.81
2	99.67	195.23	4.51	26.15
4	92.17	349.80	4.87	46.61
8	73.11	532.86	6.08	71.15
16	54.17	750.15	6.08	99.56
32	40.22	1,266.6	11.18	169.29
64	24.62	1,559.01	18.31	208.03
128	15.35	1,604.24	31.44	213.95
256	6.96	1,660.81	58.06	221.39

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	53.37	50.55	3.93	15.16
2	51.06	96.43	4.11	28.93
4	48.31	183.35	4.33	55.01
8	41.85	309.97	5.05	92.99
16	33.93	489.93	6.29	146.98
32	23.61	663.30	9.12	198.99
64	18.27	724.11	15.87	217.23
128	18.27	724.07	28.49	217.22
256	18.35	709.78	45.89	212.94

モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.83	44.33	4.47	13.30
2	46.14	82.67	4.79	24.80
4	45.18	145.33	5.46	43.60
8	44.67	234.67	6.74	70.40
16	43.43	336.00	9.34	100.80
32	32.74	394.66	15.61	118.40
64	33.25	416.00	30.12	124.80
128	33.28	405.32	59.98	121.60
256	33.27	394.60	116.63	118.38

モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.23	101.67	1.95	30.50
2	100.86	191.33	2.08	57.40
4	96.79	348.00	2.28	104.40
8	86.60	568.00	2.77	170.40
16	72.41	837.33	3.73	251.20
32	43.23	1,002.66	6.19	300.80
64	47.43	1,066.65	11.63	320.00
128	47.45	1,066.62	23.25	319.99
256	47.41	1,066.60	45.83	319.98

モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル

重要

meta.llama-3.1-405b-instructモデルは、Large Generic 2タイプの専用AIクラスタでのみホストできます。このタイプは、前のLarge Generic 4よりも少ないハードウェアでより優れたスループットと低いコストを提供することを目的としています。

次の表に、1つの大きい汎用2ユニットおよび1つの大きい汎用4ユニットでホストされているmeta.llama-3.1-405b-instructモデルに対して実行されたベンチマークを示します。モデルが現在大規模汎用4ユニットでホストされている場合は、次の表を比較して、この新しいユニットでモデルをホストするかどうかを決定します。


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	27.30	25.65	7.74	7.69
2	25.70	48.30	8.21	14.49
4	23.48	88.27	8.96	26.48
8	20.09	150.57	10.52	45.17
16	14.89	223.85	14.10	67.15
32	10.97	330.10	19.10	99.03
64	8.80	386.54	32.06	115.96
128	8.82	386.74	62.04	116.02
256	8.82	375.21	119.99	112.56

モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	32.94	25.28	7.91	7.58
2	31.31	49.05	8.15	14.71
4	28.85	87.28	8.85	26.18
8	24.24	141.04	10.42	42.31
16	20.31	219.48	12.52	65.85
32	15.99	366.75	16.70	110.03
64	11.03	485.78	24.63	145.74
128	8.27	560.24	41.22	168.07
256	8.01	583.97	74.21	175.19

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	95.86	49.82	4.10	14.62
2	91.14	94.21	4.34	14.62
4	84.77	170.89	4.63	50.04
8	75.09	281.23	5.35	82.35
16	58.20	407.94	7.00	82.35
32	42.16	593.60	10.26	174.28
64	31.93	715.30	16.44	174.28
128	30.32	754.79	29.37	174.28
256	29.16	751.22	56.21	220.34

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.78	47.82	4.28	14.02
2	45.51	90.14	4.50	26.42
4	42.24	164.92	4.81	48.51
8	37.44	289.82	5.48	85.13
16	28.00	421.00	7.19	123.72
32	18.73	542.99	10.65	159.56
64	11.63	668.78	16.17	196.44
128	6.20	700.83	32.89	205.70
256	3.97	756.00	54.71	222.02

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	107.17	94.33	4.17	14.12
2	100.71	176.04	4.44	26.35
4	90.03	310.18	4.96	46.44
8	70.71	493.30	6.26	73.86
16	53.45	716.66	8.20	108.07
32	35.60	929.63	12.22	139.13
64	21.75	1,150.16	18.41	172.14
128	17.99	1,209.36	31.93	181.05
256	9.19	1,213.82	53.31	181.70

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	136.91	133.84	3.19	18.35
2	128.58	250.14	3.40	34.21
4	114.22	434.70	3.81	59.56
8	93.74	680.93	4.67	92.38
16	71.06	1,007.40	5.96	138.94
32	50.30	1,561.75	8.74	212.91
64	30.71	1,922.54	14.28	262.99
128	17.99	2,043.92	25.57	279.72
256	8.83	2,061.45	46.83	281.73

モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.30	103.49	4.27	13.81
2	99.67	195.23	4.51	26.15
4	92.17	349.80	4.87	46.61
8	73.11	532.86	6.08	71.15
16	54.17	750.15	6.08	99.56
32	40.22	1,266.6	11.18	169.29
64	24.62	1,559.01	18.31	208.03
128	15.35	1,604.24	31.44	213.95
256	6.96	1,660.81	58.06	221.39

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	53.37	50.55	3.93	15.16
2	51.06	96.43	4.11	28.93
4	48.31	183.35	4.33	55.01
8	41.85	309.97	5.05	92.99
16	33.93	489.93	6.29	146.98
32	23.61	663.30	9.12	198.99
64	18.27	724.11	15.87	217.23
128	18.27	724.07	28.49	217.22
256	18.35	709.78	45.89	212.94

モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル

重要


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	27.30	25.65	7.74	7.69
2	25.70	48.30	8.21	14.49
4	23.48	88.27	8.96	26.48
8	20.09	150.57	10.52	45.17
16	14.89	223.85	14.10	67.15
32	10.97	330.10	19.10	99.03
64	8.80	386.54	32.06	115.96
128	8.82	386.74	62.04	116.02
256	8.82	375.21	119.99	112.56

モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	32.94	25.28	7.91	7.58
2	31.31	49.05	8.15	14.71
4	28.85	87.28	8.85	26.18
8	24.24	141.04	10.42	42.31
16	20.31	219.48	12.52	65.85
32	15.99	366.75	16.70	110.03
64	11.03	485.78	24.63	145.74
128	8.27	560.24	41.22	168.07
256	8.01	583.97	74.21	175.19

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	95.86	49.82	4.10	14.62
2	91.14	94.21	4.34	14.62
4	84.77	170.89	4.63	50.04
8	75.09	281.23	5.35	82.35
16	58.20	407.94	7.00	82.35
32	42.16	593.60	10.26	174.28
64	31.93	715.30	16.44	174.28
128	30.32	754.79	29.37	174.28
256	29.16	751.22	56.21	220.34

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.78	47.82	4.28	14.02
2	45.51	90.14	4.50	26.42
4	42.24	164.92	4.81	48.51
8	37.44	289.82	5.48	85.13
16	28.00	421.00	7.19	123.72
32	18.73	542.99	10.65	159.56
64	11.63	668.78	16.17	196.44
128	6.20	700.83	32.89	205.70
256	3.97	756.00	54.71	222.02

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	107.17	94.33	4.17	14.12
2	100.71	176.04	4.44	26.35
4	90.03	310.18	4.96	46.44
8	70.71	493.30	6.26	73.86
16	53.45	716.66	8.20	108.07
32	35.60	929.63	12.22	139.13
64	21.75	1,150.16	18.41	172.14
128	17.99	1,209.36	31.93	181.05
256	9.19	1,213.82	53.31	181.70

Japan Central (Osaka)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	136.91	133.84	3.19	18.35
2	128.58	250.14	3.40	34.21
4	114.22	434.70	3.81	59.56
8	93.74	680.93	4.67	92.38
16	71.06	1,007.40	5.96	138.94
32	50.30	1,561.75	8.74	212.91
64	30.71	1,922.54	14.28	262.99
128	17.99	2,043.92	25.57	279.72
256	8.83	2,061.45	46.83	281.73

モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.30	103.49	4.27	13.81
2	99.67	195.23	4.51	26.15
4	92.17	349.80	4.87	46.61
8	73.11	532.86	6.08	71.15
16	54.17	750.15	6.08	99.56
32	40.22	1,266.6	11.18	169.29
64	24.62	1,559.01	18.31	208.03
128	15.35	1,604.24	31.44	213.95
256	6.96	1,660.81	58.06	221.39

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	53.37	50.55	3.93	15.16
2	51.06	96.43	4.11	28.93
4	48.31	183.35	4.33	55.01
8	41.85	309.97	5.05	92.99
16	33.93	489.93	6.29	146.98
32	23.61	663.30	9.12	198.99
64	18.27	724.11	15.87	217.23
128	18.27	724.07	28.49	217.22
256	18.35	709.78	45.89	212.94

モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.83	44.33	4.47	13.30
2	46.14	82.67	4.79	24.80
4	45.18	145.33	5.46	43.60
8	44.67	234.67	6.74	70.40
16	43.43	336.00	9.34	100.80
32	32.74	394.66	15.61	118.40
64	33.25	416.00	30.12	124.80
128	33.28	405.32	59.98	121.60
256	33.27	394.60	116.63	118.38

モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.23	101.67	1.95	30.50
2	100.86	191.33	2.08	57.40
4	96.79	348.00	2.28	104.40
8	86.60	568.00	2.77	170.40
16	72.41	837.33	3.73	251.20
32	43.23	1,002.66	6.19	300.80
64	47.43	1,066.65	11.63	320.00
128	47.45	1,066.62	23.25	319.99
256	47.41	1,066.60	45.83	319.98

モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル

重要


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	27.30	25.65	7.74	7.69
2	25.70	48.30	8.21	14.49
4	23.48	88.27	8.96	26.48
8	20.09	150.57	10.52	45.17
16	14.89	223.85	14.10	67.15
32	10.97	330.10	19.10	99.03
64	8.80	386.54	32.06	115.96
128	8.82	386.74	62.04	116.02
256	8.82	375.21	119.99	112.56

モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	32.94	25.28	7.91	7.58
2	31.31	49.05	8.15	14.71
4	28.85	87.28	8.85	26.18
8	24.24	141.04	10.42	42.31
16	20.31	219.48	12.52	65.85
32	15.99	366.75	16.70	110.03
64	11.03	485.78	24.63	145.74
128	8.27	560.24	41.22	168.07
256	8.01	583.97	74.21	175.19

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	95.86	49.82	4.10	14.62
2	91.14	94.21	4.34	14.62
4	84.77	170.89	4.63	50.04
8	75.09	281.23	5.35	82.35
16	58.20	407.94	7.00	82.35
32	42.16	593.60	10.26	174.28
64	31.93	715.30	16.44	174.28
128	30.32	754.79	29.37	174.28
256	29.16	751.22	56.21	220.34

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	107.17	94.33	4.17	14.12
2	100.71	176.04	4.44	26.35
4	90.03	310.18	4.96	46.44
8	70.71	493.30	6.26	73.86
16	53.45	716.66	8.20	108.07
32	35.60	929.63	12.22	139.13
64	21.75	1,150.16	18.41	172.14
128	17.99	1,209.36	31.93	181.05
256	9.19	1,213.82	53.31	181.70

UK South (London)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	136.91	133.84	3.19	18.35
2	128.58	250.14	3.40	34.21
4	114.22	434.70	3.81	59.56
8	93.74	680.93	4.67	92.38
16	71.06	1,007.40	5.96	138.94
32	50.30	1,561.75	8.74	212.91
64	30.71	1,922.54	14.28	262.99
128	17.99	2,043.92	25.57	279.72
256	8.83	2,061.45	46.83	281.73

モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.30	103.49	4.27	13.81
2	99.67	195.23	4.51	26.15
4	92.17	349.80	4.87	46.61
8	73.11	532.86	6.08	71.15
16	54.17	750.15	6.08	99.56
32	40.22	1,266.6	11.18	169.29
64	24.62	1,559.01	18.31	208.03
128	15.35	1,604.24	31.44	213.95
256	6.96	1,660.81	58.06	221.39

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	53.37	50.55	3.93	15.16
2	51.06	96.43	4.11	28.93
4	48.31	183.35	4.33	55.01
8	41.85	309.97	5.05	92.99
16	33.93	489.93	6.29	146.98
32	23.61	663.30	9.12	198.99
64	18.27	724.11	15.87	217.23
128	18.27	724.07	28.49	217.22
256	18.35	709.78	45.89	212.94

モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.83	44.33	4.47	13.30
2	46.14	82.67	4.79	24.80
4	45.18	145.33	5.46	43.60
8	44.67	234.67	6.74	70.40
16	43.43	336.00	9.34	100.80
32	32.74	394.66	15.61	118.40
64	33.25	416.00	30.12	124.80
128	33.28	405.32	59.98	121.60
256	33.27	394.60	116.63	118.38

モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.23	101.67	1.95	30.50
2	100.86	191.33	2.08	57.40
4	96.79	348.00	2.28	104.40
8	86.60	568.00	2.77	170.40
16	72.41	837.33	3.73	251.20
32	43.23	1,002.66	6.19	300.80
64	47.43	1,066.65	11.63	320.00
128	47.45	1,066.62	23.25	319.99
256	47.41	1,066.60	45.83	319.98

モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル

重要


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	27.30	25.65	7.74	7.69
2	25.70	48.30	8.21	14.49
4	23.48	88.27	8.96	26.48
8	20.09	150.57	10.52	45.17
16	14.89	223.85	14.10	67.15
32	10.97	330.10	19.10	99.03
64	8.80	386.54	32.06	115.96
128	8.82	386.74	62.04	116.02
256	8.82	375.21	119.99	112.56

モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	32.94	25.28	7.91	7.58
2	31.31	49.05	8.15	14.71
4	28.85	87.28	8.85	26.18
8	24.24	141.04	10.42	42.31
16	20.31	219.48	12.52	65.85
32	15.99	366.75	16.70	110.03
64	11.03	485.78	24.63	145.74
128	8.27	560.24	41.22	168.07
256	8.01	583.97	74.21	175.19

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	95.86	49.82	4.10	14.62
2	91.14	94.21	4.34	14.62
4	84.77	170.89	4.63	50.04
8	75.09	281.23	5.35	82.35
16	58.20	407.94	7.00	82.35
32	42.16	593.60	10.26	174.28
64	31.93	715.30	16.44	174.28
128	30.32	754.79	29.37	174.28
256	29.16	751.22	56.21	220.34

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.78	47.82	4.28	14.02
2	45.51	90.14	4.50	26.42
4	42.24	164.92	4.81	48.51
8	37.44	289.82	5.48	85.13
16	28.00	421.00	7.19	123.72
32	18.73	542.99	10.65	159.56
64	11.63	668.78	16.17	196.44
128	6.20	700.83	32.89	205.70
256	3.97	756.00	54.71	222.02

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	107.17	94.33	4.17	14.12
2	100.71	176.04	4.44	26.35
4	90.03	310.18	4.96	46.44
8	70.71	493.30	6.26	73.86
16	53.45	716.66	8.20	108.07
32	35.60	929.63	12.22	139.13
64	21.75	1,150.16	18.41	172.14
128	17.99	1,209.36	31.93	181.05
256	9.19	1,213.82	53.31	181.70

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024 (Cohere Command R 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	136.91	133.84	3.19	18.35
2	128.58	250.14	3.40	34.21
4	114.22	434.70	3.81	59.56
8	93.74	680.93	4.67	92.38
16	71.06	1,007.40	5.96	138.94
32	50.30	1,561.75	8.74	212.91
64	30.71	1,922.54	14.28	262.99
128	17.99	2,043.92	25.57	279.72
256	8.83	2,061.45	46.83	281.73

モデル: 専用AIクラスタの1つのLarge Cohere V2_2ユニットでホストされるcohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.30	103.49	4.27	13.81
2	99.67	195.23	4.51	26.15
4	92.17	349.80	4.87	46.61
8	73.11	532.86	6.08	71.15
16	54.17	750.15	6.08	99.56
32	40.22	1,266.6	11.18	169.29
64	24.62	1,559.01	18.31	208.03
128	15.35	1,604.24	31.44	213.95
256	6.96	1,660.81	58.06	221.39

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	53.37	50.55	3.93	15.16
2	51.06	96.43	4.11	28.93
4	48.31	183.35	4.33	55.01
8	41.85	309.97	5.05	92.99
16	33.93	489.93	6.29	146.98
32	23.61	663.30	9.12	198.99
64	18.27	724.11	15.87	217.23
128	18.27	724.07	28.49	217.22
256	18.35	709.78	45.89	212.94

モデル: 専用AIクラスタの1つのLarge Generic V2ユニットでホストされるmeta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.83	44.33	4.47	13.30
2	46.14	82.67	4.79	24.80
4	45.18	145.33	5.46	43.60
8	44.67	234.67	6.74	70.40
16	43.43	336.00	9.34	100.80
32	32.74	394.66	15.61	118.40
64	33.25	416.00	30.12	124.80
128	33.28	405.32	59.98	121.60
256	33.27	394.60	116.63	118.38

モデル: 専用AIクラスタの1つのSmall Generic V2ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデル(テキスト入力のみ)


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.23	101.67	1.95	30.50
2	100.86	191.33	2.08	57.40
4	96.79	348.00	2.28	104.40
8	86.60	568.00	2.77	170.40
16	72.41	837.33	3.73	251.20
32	43.23	1,002.66	6.19	300.80
64	47.43	1,066.65	11.63	320.00
128	47.45	1,066.62	23.25	319.99
256	47.41	1,066.60	45.83	319.98

モデル: 専用AIクラスタの1つのLarge Generic 2ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル

重要


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	27.30	25.65	7.74	7.69
2	25.70	48.30	8.21	14.49
4	23.48	88.27	8.96	26.48
8	20.09	150.57	10.52	45.17
16	14.89	223.85	14.10	67.15
32	10.97	330.10	19.10	99.03
64	8.80	386.54	32.06	115.96
128	8.82	386.74	62.04	116.02
256	8.82	375.21	119.99	112.56

モデル: 専用AIクラスタの1つのLarge Generic 4ユニットでホストされるmeta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	32.94	25.28	7.91	7.58
2	31.31	49.05	8.15	14.71
4	28.85	87.28	8.85	26.18
8	24.24	141.04	10.42	42.31
16	20.31	219.48	12.52	65.85
32	15.99	366.75	16.70	110.03
64	11.03	485.78	24.63	145.74
128	8.27	560.24	41.22	168.07
256	8.01	583.97	74.21	175.19

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B))モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	95.86	49.82	4.10	14.62
2	91.14	94.21	4.34	14.62
4	84.77	170.89	4.63	50.04
8	75.09	281.23	5.35	82.35
16	58.20	407.94	7.00	82.35
32	42.16	593.60	10.26	174.28
64	31.93	715.30	16.44	174.28
128	30.32	754.79	29.37	174.28
256	29.16	751.22	56.21	220.34

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	28.84	28.82	7.11	8.44
2	26.52	52.69	7.66	15.51
4	24.23	94.86	8.38	27.92
8	20.01	155.97	10.21	45.76
16	14.34	216.26	14.12	63.43
32	9.33	275.28	21.30	80.89
64	5.68	334.46	32.55	98.11
128	3.13	364.18	64.59	106.94
256	1.59	359.21	128.67	105.44

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Cohere V2ユニットでホストされるcohere.command-r-plus (Cohere Command R+)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	107.17	94.33	4.17	14.12
2	100.71	176.04	4.44	26.35
4	90.03	310.18	4.96	46.44
8	70.71	493.30	6.26	73.86
16	53.45	716.66	8.20	108.07
32	35.60	929.63	12.22	139.13
64	21.75	1,150.16	18.41	172.14
128	17.99	1,209.36	31.93	181.05
256	9.19	1,213.82	53.31	181.70

モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	33.13	25.28	6.68	8.62
8	23.24	90.64	13.29	29.84
32	13.03	163.48	26.56	54.21
128	5.60	186.31	65.30	61.32

モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	56.71	50.88	3.14	17.61
8	24.70	148.42	6.15	53.93
32	11.06	235.31	13.37	85.14
128	3.40	280.3	31.64	105.77

Oracle Cloud Infrastructureドキュメント

シナリオ2: 生成AIでのRetrieval-Augmented Generation (RAG)ベンチマーク

ブラジル東部(サンパウロ)

Germany Central (Frankfurt)

Japan Central (Osaka)

UK South (London)

US Midwest (Chicago)