GPU拡張

ローカル・データ・センターでGPUアクセラレーテッド・ワークロードを有効にするには、GPUがインストールされているサーバー・ノードを使用してCompute Cloud@Customerインストールを拡張します。

GPUノードは、配電ユニット(PDU)およびネットワーク・コンポーネントを含む拡張ラックで提供され、追加の物理リソースをベース・ラックと統合します。GPU拡張ラックには、工場出荷時にインストールされるGPUノードが少なくとも1つと最大6つ含まれています。初期デプロイメント後にさらに多くのノードをインストールできます。ベース・ラックには最大2つの拡張ラックを接続でき、最大12個のGPUノードを使用できます。

GPUノードは、Intel Xeon Platinum 8480+アーキテクチャ、高速イーサネット接続、および48GBのGDDR6メモリーと1466ピークのFP8 TFLOPSを備えた4つのNVIDIA L40S GPUを搭載した3つのRUサーバーです。これらのノードが完全にプロビジョニングされると、その使用はシームレスになります。ユーザーは、新しいコンピュート・インスタンスを起動するときに、専用のコンピュート・シェイプを選択して、1つ以上のGPUをインスタンスに割り当てます。

コンポーネント仕様の詳細は、製造元のWebサイトを参照してください。

GPU拡張機能を備えたOracle Compute Cloud@Customerは、エッジにAIおよびグラフィック集中型アプリケーションを構築するためのスケーラブルなプラットフォームを提供します。次世代のデータ・センター・ワークロードを強化するために構築されています。次に例を示します。

生成AI推論: マルチモデル生成AIパイプライン(テキスト、イメージ、オーディオ、ビデオ)のリアルタイム推論
LLMトレーニングとファインチューニング: NVIDIAのトランスフォーマ・エンジンとFP8サポートにより、中規模のLLMを微調整し、小規模のLLMをトレーニングするためのパフォーマンスを加速
グラフィック集中型およびVDIアプリケーション: NVIDIAのRTXおよびレイ・トレース機能を備えた3Dグラフィックスおよびレンダリング・ワークフロー
NVIDIA Omniverseを使用したデジタル・ツイン: 複雑な3D産業デジタル化ワークフローの開発と運用
メディア・ストリーミング: 4Kビデオ・ストリーミングのエンコード/デコード密度およびAV1サポートの増加
HPC: FP32サポートによる科学的データ分析およびシミュレーションのワークロード

インストール要件

サイトの準備: GPUノードを使用してCompute Cloud@Customer環境を拡張することにした場合は、追加のハードウェアのインストールを慎重に計画してください。GPU拡張ラックには、基本ラックと同じ外部寸法があり、同じタイプのハードウェアが含まれています。したがって、基本ラックの設置場所要件も拡張ラックに適用されます。詳細は、Preparing Your Siteのインストール・セクションを参照してください。
ラックの配線: ベース・ラックとGPU拡張ラックの間のケーブル接続は、25メートルを超えないようにする必要があります。拡張ラックのスペースを基本ラックの近くに配置し、ラック間配線が床または天井を通るときに、指定された最大長の範囲内になるようにします。必要なケーブル長は順序で指定する必要があります。
高パフォーマンス・ストレージ: GPUコンピュート・シェイプは、高速および低レイテンシを実現するように最適化されています。高性能ストレージは排他的に使用されます。つまり、システムの ZFS Storage Applianceは、1つ以上のパフォーマンスディスクトレイで構成される高性能ストレージプールを提供する必要があります。既存のインストールにパフォーマンス・トレイが存在しない場合は、GPU拡張順序にパフォーマンス・トレイが追加されます。ベース・ラックにパフォーマンス・トレイを追加できるラック・ユニットがない場合は、ストレージ拡張ラックに取り付けられます。高パフォーマンスのストレージ・プールは、GPU拡張ラックをアクティブ化する前に構成する必要があります。

インストール・プロセス

物理的な設置

すべてのインストール・タスクはOracleによって実行されます。GPU拡張ラックが割り当てられたスペースにある場合は、ベース・ラックに接続する必要があります。拡張ラックのリーフスイッチは、データネットワークを拡張ラックに拡張するために、ベースラックのスパインスイッチと相互接続されます。同様に、拡張ラックコンポーネントは、両方のラックの管理スイッチ間のケーブル接続を介して内部管理ネットワークに追加されます。このセットアップに必要なポートは、接続されているすべてのスイッチで予約されています。GPUノードは、工場で拡張ラック・スイッチに内部的に接続されています。

ラックのアクティブ化

物理接続が確立されると、いずれかの管理ノードからスクリプトを実行して拡張ラックがアクティブ化されます。スクリプトはスイッチの電源を投入し、必要なポートを有効にして、新しいハードウェアコンポーネントを検出して登録できるようにします。スクリプトが終了すると、相互接続されたラック間でデータおよび管理ネットワークが動作します。システムは、新しいノードでのオペレーティング・システムおよび追加ソフトウェアのインストールおよび構成を続行し、プロビジョニングの準備を行います。GPUノードがプロビジョニングされると、完全に統合され、すぐに使用できます。

GPUノードは、他の計算ノードとともに既存のフォルト・ドメインに追加されます。ただし、サーバー・ファミリは相互に個別に動作し、それらの間の移行はサポートされていません。標準のコンピュート・ノードとは異なり、GPUノードを1つずつ追加できるため、フォルト・ドメインのバランスが崩れる可能性があります。

Oracle Cloud Infrastructureドキュメント

GPU拡張

インストール要件

インストール・プロセス