大型モデル・サポート

データ・サイエンス・モデルのデプロイメントおよびモデル・カタログ・サービスは、大規模なモデル・デプロイメントをサポートするようになりました。

大規模なモデル・アーティファクトは、モデル・カタログ・サービスに格納でき、モデル・デプロイメントの作成に使用できます。エンドポイント・マッピング機能を使用すると、/predictおよび/healthエンドポイントの標準API契約に準拠していない場合でも、テキスト生成インタフェース(TGI)などの推論コンテナを統合できます。

ラージ・モデルのモデル・デプロイメントの作成

モデル・デプロイメントでは、独自のコンテナの持込み(BYOC)がサポートされています。モデル・デプロイメントの作成時に、カスタム・コンテナを実行時の依存性として使用します。カスタム・コンテナを使用すると、システムおよび言語の依存関係をパッケージ化し、推論サーバーをインストールおよび構成し、様々な言語実行時間を設定できます。これらはすべて、モデル・デプロイメント・リソースとのインタフェースの定義済の境界内にあり、コンテナを実行できます。BYOCとは、アプリケーションを移行してOCI Cloudにデプロイできるように、異なる環境間でコンテナを転送できることを意味します。

モデル・カタログの変更

モデルを作成し、ADS SDK、OCI Python SDKまたはコンソールを使用してモデル・カタログに保存します。詳細は、「モデル・カタログへのモデルの作成および保存」および「ラージ・モデル・アーティファクト」を参照してください。ラージ・モデル・カタログでは、同じエクスポート機能を使用してモデルをモデル・カタログに保存します。ユーザー・エクスペリエンスは、文書化された動作とは異なります。
重要

大規模モデルのデプロイメント

モデル・デプロイメントは、大規模なモデル・デプロイメントの多様なニーズに対応した、機械学習推論フレームワークの配列をサポートするように設計されています。これらの中でも、OCIは、大規模言語モデル(LLM)のテキスト生成インタフェース(TGI)NVIDIA Triton推論サーバーおよび仮想大言語モデル(VLLM)をサポートしています。このサポートにより、デプロイメント要件に最適なフレームワークを選択できます。TGIとOCIの統合は、カスタマイズされたコンテナの使用をサポートし、特定のモデルの動作と依存関係に合わせた正確な環境設定を可能にします。NVIDIA Triton Inference Serverは、集中的な計算リソース、特にAIやディープラーニングを必要とするモデルのために、OCI上で合理化されたパスを提供します。GPUリソースの効率的な管理に役立ち、TensorFlow、PyTorch、ONNXなどの幅広い機械学習フレームワークをサポートしています。OCIのVLLMとNVIDIA Triton TensorRT LLMの処理は、大規模な言語モデルに特化した最適化を提供します。これらのフレームワークは、レイヤーの融合や精密キャリブレーションなどの高度な最適化技術によって、強化されたパフォーマンス機能を活用します。これは、大規模な言語処理タスクの非常に大規模な計算要求を処理するために重要です。これらのフレームワークをOCIにデプロイすることで、高スループットと低レイテンシの推論を使用できるため、リアルタイムの言語理解と生成を必要とするアプリケーションに最適です。各オプションのデプロイメントの詳細は、次のとおりです。

テキスト生成インタフェース(TGI)を使用した大規模モデルのデプロイ

TGIを使用した大規模なモデルのデプロイに関する背景情報は、HuggingFace Webサイトを参照してください。

TGIを使用して大規模なモデルをデプロイするステップは、GitHubのドキュメントを参照してください。

NVIDIAのTriton Inference Serverを使用した大規模モデルの導入

Triton Inference Serverは、大規模なAIモデルのデプロイメントと管理を合理化するために設計されており、単一の統合アーキテクチャでTensorFlow、PyTorch、ONNXなどの複数のフレームワークをサポートしています。モデル・デプロイメントでBYOCを使用することで、環境をカスタマイズして、特定のプロジェクトのニーズに応じてパフォーマンスとリソース使用率を最適化できます。このセットアップにより、Tritonの機能が強化され、複雑なモデルを効率的かつコスト効率よくOCIにデプロイするのに最適です。ここでは、OCI Data Science Model DeploymentのBring Your Own Containerサポートを使用して、NVIDIA Triton Inference ServerでFalcon TensorRTアンサンブル・モデルをデプロイする例を示します。この例は、Tritonのinflight_batcher_llmに基づいています。Falcon Model TensorRTエンジンファイルは、TensorRT-LLM/examples/falconを使用して構築する必要があります。

GitHubのステップに従って、Triton TensoRT LLMを使用した大規模モデルのデプロイを行います。

vLLM推論サーバーを使用した大規模モデルのデプロイ

AIアプリケーションがますます高度な言語モデルに依存するようになるにつれて、効率的で高性能な推論サーバーの必要性が高まりました。vLLMは、高速なLLM推論とサービスのためのオープンソースライブラリです。vLLMは、注意キーと値を管理する注意アルゴリズムであるPagedAttentionを使用します。

vLLMを使用して大規模なモデルをデプロイするステップおよびMeta-Llama-3-8B-Instruct with Oracle service managed vLLM(0.3.0) containerをGitHubにデプロイするステップに従います。