モデル番号:
自動スケーリング・モデル・デプロイメントについて学習します。
モデル・デプロイメントを設定する場合、適切なコンピュート・シェイプとインスタンス数について決定することが重要です。外部変数があるため、デプロイメントに最適なスケールを予測することは困難です。絶え間ない可用性とコスト効率に対する最高のパフォーマンスのバランスをとることは、特に予測不可能なワークロードに対処する場合の一般的なジレンマです。
自動スケーリングは、インスタンス数の範囲を定義できるソリューションを提供し、需要の変動に応じてサービスを自動的にスケール・アップまたはスケール・ダウンできるようにします。このアプローチにより、使用量の増加に対応しながら、効率的なリソース使用量が確保されます。スケーリング・プロセスをトリガーする使用しきい値を設定できる柔軟性があり、デプロイメントが需要の変化にどの程度迅速に適応するかを制御できます。
また、自動スケーリング機能をロード・バランサに拡張することもできます。最小値と最大値で帯域幅範囲を指定することで、ロード・バランサは様々なトラフィック・リクエストに自動的に調整されます。これにより、パフォーマンスが向上するだけでなく、変化するワークロードの需要に動的に対応することで、効果的なコスト管理にも貢献します。

モデル・デプロイメントの自動スケーリングの主な利点は次のとおりです。
-
動的リソース調整: 自動スケーリングは、リアルタイムの需要に基づいてコンピュート・リソースの数を自動的に増減します(自動スケールやダウンスケールなど、1から10まで)。これにより、デプロイされたモデルが様々な負荷を効率的に処理できるようになります。
-
コスト効率: リソースを動的に調整することで、自動スケーリングにより、必要なリソースのみを使用(および支払)できます。これにより、静的デプロイメントと比較してコストを削減できます。
-
可用性の強化: ロード・バランサとペアリングされた自動スケーリングにより、1つのインスタンスに障害が発生した場合、トラフィックを正常なインスタンスに再ルーティングできるため、サービスが中断されることはありません。
- カスタマイズ可能なトリガー: ユーザーは、MQL式を使用して自動スケーリング問合せをカスタマイズできます。
- Load Balancerの互換性: 自動スケーリングは、LB帯域幅を自動的にスケーリングしてより多くのトラフィックをサポートできるロード・バランサと手作業で動作し、最高のパフォーマンスが保証され、ボトルネックが削減されます。
- クールダウン期間: スケーリング・アクションの後、オートスカラーがそれ以上のアクションを実行しないクールダウン期間を定義できます。これにより、短時間で過剰なスケーリング・アクションを防止できます。
サポートされる自動スケーリングのタイプ
メトリックベースの自動スケーリングは、モデル・デプロイメントでサポートされている自動スケーリング・メソッドです。ここで、パフォーマンス・メトリックが定義済のしきい値を超えると、自動スケーリング・アクションがトリガーされます。現時点では、1つのメトリックベースの自動スケーリング・ポリシーのみを追加できます。
メトリックベースの自動スケーリングは、モニタリング・サービスによって収集され、モデル・デプロイメント・リソースによって発行されるパフォーマンス・メトリック(CPU使用率など)に依存します。これらのメトリックは、指定された期間に集計され、モデル・デプロイメント・リソース内のすべてのインスタンスで平均化されます。一定数の連続した値(指定した期間の平均メトリック)がしきい値を満たすと、自動スケーリング・イベントがトリガーされます。
メトリックベースの自動スケーリング・イベントの間のクール・ダウン期間には、更新されたレベルでシステムが安定化します。クール・ダウン期間は、モデル・デプロイメントが「アクティブ」状態になると開始されます。クール・ダウン期間中、サービスは引き続きパフォーマンス・メトリックを評価します。クール・ダウン期間が終了すると、必要に応じて、自動スケーリングによってモデル・デプロイメントのサイズが再度調整されます。
次のいずれかを選択して、メトリックベースの自動スケーリングを構成できます。
-
PREDEFINED_EXPRESSION
-
CUSTOM_EXPRESSION
事前定義済タイプで、2つのメトリック(CPU_UTILIZATION
またはMEMORY_UTILIZATION
)のいずれかを選択し、スケーリング条件のしきい値を指定します。カスタム・スケーリング・メトリック・タイプまたは式では、MQLの形式でスケーリング条件を定義し、必要なモデル・デプロイメント・メトリックを選択できます。
前提条件
自動スケーリングを使用する前に、次の前提条件を追加します。
ポリシー
allow service autoscaling to read metrics in tenancy where target.metrics.namespace='oci_datascience_modeldeploy'
動作中の自動スケーリング
モデル・デプロイメント・リソースがスケーリングされると、作業リクエスト(作業リクエストの更新として表示される)ログを監視して、進行状況を追跡します。
作業リクエストの更新ログは、進行中の操作に関するリアルタイムの更新を提供し、変更内容(以前のサイズや新しいサイズなど)を詳細に説明します。
モデル・デプロイメントの作成または更新が失敗した場合は、左側のメニューで「エラー・メッセージ」を選択して、特定のエラーまたは失敗の理由を特定します。様々なエラー・シナリオの解決および問題をデバッグするステップのガイダンスは、自動スケーリング・モデル・デプロイメントのトラブルシューティング・セクションを参照してください。