アラームのベスト・プラクティス

アラームのベスト・プラクティスについてお読みください。

各メトリックの一連のアラームの作成

リソースにより発行される各メトリックについて、次のリソース動作を定義するアラームを作成します:

リスクあり。リソースは、メトリック値で示されるように、動作しなくなるリスクがあります。
最適ではありません。リソースは、メトリック値で示されるように、非最適なレベルで実行しています。
リソースが稼働中または停止。リソースにアクセスできないか、または操作ができません。

次の例では、oci_computeagentメトリック・ネームスペースによって発行されたCpuUtilizationメトリックを使用しています。このメトリックは、インスタンスで実行されているすべてのサービスおよびアプリケーションのコンピュート・インスタンスとアクティビティ・レベルの使用率をモニターします。CpuUtilizationは、コンピュート・インスタンスのCPU使用率を示し、パフォーマンスの問題の調査に使用できるため、cloud serviceの主要なパフォーマンス・メトリックです。CPU使用率についてさらに学習するには、次のURL:https://en.wikipedia.org/wiki/CPU_timeを参照してください。

リスクありの例

CpuUtilizationメトリックの典型的なリスクなしのしきい値は、80パーセントを超える任意の値です。このしきい値を破るコンピュート・インスタンスは、動作しなくなるリスクがあります。多くの場合、この動作の原因は、CPUの消費率が高い1つ以上のアプリケーションです。

この例では、インスタンスを最適な運用レベルに戻すために修復が必要なため、操作チームにただちに通知することにし、アラームの重大度を「クリティカル」に設定します。PagerDutyと電子メールの両方で、担当チームへのアラーム通知を構成し、インスタンスが動作不能状態になる前に調査と適切な修正をリクエストします。繰返し通知は1分ごとに設定します。アラーム通知に応答したら、アラームを抑制するベスト・プラクティスを使用して、通知を一時的に停止します。メトリックから最適な値に戻った場合は、抑制を削除します。

NonOptimal例

CpuUtilizationメトリックの一般的な非最適化のしきい値は、60から80パーセントです。コンピュート・インスタンスのメトリック値がこの範囲内にある場合、インスタンスは最適な操作範囲を超過しています。

この例では、アプリケーションまたはプロセスが通常よりも多くのCPUを消費していることを適切な個人またはチームに通知することにします。CPUを調査して削減するための即時のアクションは必要ないため、しきい値アラームを構成して、適切な連絡先に通知し、アラムの重大度は「警告」に設定します。適切な開発者またはチームへの電子メール通知のみを設定し、電子メール通知のノイズを削減するために24時間ごとに繰返し通知を送信します。

リソースが稼働中または停止の例

リソースの可用性の一般的なインジケータは、CpuUtilizationメトリックの5分間の不在である。このしきい値を破るコンピュート・インスタンスはアクセスできないか、または操作できません。リソースが応答を停止したか、接続の問題が原因で、リソースが使用できなくなった可能性があります。

この例では、インスタンスをオンラインに戻すために修復が必要なため、操作チームにただちに通知することにし、不在アラームの重大度を「クリティカル」に設定します。PagerDutyと電子メールの両方で、担当チームへのアラーム通知を構成し、調査とワークロードを別の使用可能なリソースに移動することをリクエストします。繰返し通知は1分ごとに設定します。アラーム通知に応答したら、アラームを抑制するベスト・プラクティスを使用して、通知を一時的に停止します。リソースからCpuUtilizationメトリックが再び検出された場合、抑制が削除されます。

データベース・インスタンスの停止など、イベントが発生するたびに通知を受け取る場合があります。このシナリオでは、繰返し通知を0分に設定して、イベントベースのアラームを作成します。手順については、アラームのイベントベースの通知の取得を参照してください。

メトリックの正しいアラーム間隔の選択

メトリックが発行される頻度に基づいてアラーム間隔を選択します。たとえば、5分ごとに発行されるメトリックには、5分以上のアラーム間隔が必要です。ほとんどのメトリックは1分ごとに発行されるため、任意のアラーム間隔がサポートされます。特定のメトリックに対して有効なアラーム間隔を決定するには、関連するサービスのメトリック参照を確認してください。

調査中のアラームの抑制

チーム・メンバーがアラームに応答すると、問題の調査または軽減中の通知が抑制されます。通知を一時的に停止することによって、調査中や緩和中の注意が散漫になることを回避できます。問題が解決されたときは抑制を削除します。手順については、単一のアラームの抑制および複数のアラームの抑制を参照してください。

アラームの定期的なチューニング

毎週など、定期的に、最適な構成になるようにアラームを確認してください。各アラームのしきい値、重大度および通知の詳細(方法、頻度、ターゲット対象者など)を調整します。

最適なアラーム構成は、次の要因に対処します。

リソースのクリティカル度。
適切なリソースの動作。サービス・エコシステムのコンテキスト内で、動作を単独で評価します。特定の期間のメトリック値の変動を確認し、必要に応じてしきい値を調整します。
許容可能な通知ノイズ。通知方法(電子メールやPagerDuty)、適切な受信者、繰返し通知の頻度を評価します。

次の表に、アラーム補正の例を示します。

しきい値CPU %	重大度	通知方法	頻度	ターゲット対象者
>80%	クリティカル	PagerDuty +電子メール	1分	コンピュート、運用、顧客コミュニケーション
>60% & <80%	警告	電子メール	1日に1回	コンピュート+運用

手順は、アラームの更新を参照してください。

Oracle Cloud Infrastructureドキュメント