コンピュート・インスタンス・メトリック
コンピュート・インスタンスのヘルス、容量およびパフォーマンスは、メトリック、アラームおよび通知を使用してモニターできます。
このトピックでは、メトリック・ネームスペースoci_computeagent (コンピュート・インスタンス上のコンピュート・インスタンスのモニタリング・プラグイン)から出力されるメトリックを説明します。
個々のコンピュート・インスタンス、およびインスタンス・プール内のすべてのインスタンスについて、これらのメトリックを表示できます。
リソース: モニタリング対応のコンピュート・インスタンス。
インスタンスおよび関連リソースのメトリックの概要
この項では、インスタンスおよびそのストレージ・デバイスとネットワーク・デバイスで使用可能な様々なタイプのメトリックの全体像を示します。概要は、次の図と表を参照してください。
| メトリック・ネームスペース | リソースID | 測定される場所 | 使用可能なメトリック |
|---|---|---|---|
oci_computeagent
|
インスタンスのOCID | インスタンス。このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。
|
使用可能なメトリック: oci_computeagentを参照してください。 |
oci_blockstore
|
ブート・ボリュームまたはブロック・ボリュームのOCID | Block Volumeサービスごと。このメトリックは個々のボリューム(ブート・ボリュームまたはブロック・ボリューム)に対応しています。 | ブロック・ボリューム・メトリックを参照してください。 |
oci_vcn
|
VNICのOCID | ネットワーキング・サービスごと。このメトリックは個々のVNICに対応しています。 |
VNICメトリックを参照してください。 |
開始する前に
- IAMポリシー: リソースをモニターするには、管理者が作成するポリシーで、コンソール、またはSDK、CLIまたはその他のツールを使用したREST APIのどちらを使用しているかに関係なく、必要なアクセスのタイプが付与されている必要があります。ポリシーでは、モニタリング・サービスおよびモニター対象のリソースの両方へのアクセス権を付与する必要があります。アクションを実行しようとしたときに、権限がない、または認可されていないというメッセージが表示された場合は、付与されているアクセス権のタイプと作業するコンパートメントを管理者に確認します。モニタリングのユーザー認可の詳細は、IAMポリシーを参照してください。
- モニタリングにメトリックが存在する: モニター対象のリソースは、モニタリング・サービスにメトリックを発行する必要があります。
- コンピュート・インスタンス: メトリックを生成するには、コンピュート・インスタンスのモニタリング・プラグインがインスタンスで有効になっており、プラグインが実行されている必要があります。また、モニタリング・サービスにメトリックを送信するために、インスタンスにサービス・ゲートウェイまたはパブリックIPアドレスが必要です。詳細は、コンピュート・インスタンスのモニタリングの有効化を参照してください。
使用可能なメトリック: oci_computeagent
コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースoci_computeagentから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- availabilityDomain
- インスタンスが存在する可用性ドメイン 。
- faultDomain
- インスタンスが存在するフォルト・ドメイン 。
- imageId
- インスタンスのイメージ のOCID。
- instancePoolId
- インスタンスが属するインスタンス・プール。
- region
- インスタンスが存在するリージョン 。
- resourceDisplayName
- インスタンスのわかりやすい名前。
- resourceId
- インスタンスのOCID 。
- shape
- インスタンスのシェイプ 。
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
CpuUtilization
|
CPU使用率 | % |
CPUのアクティビティ・レベル。合計時間に対する割合として表されます。 インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。 |
|
DiskBytesRead 1 3
|
ディスク読取りバイト | バイト | 読取りスループット一定時間当たりに読み取られたバイト数として表されます。 | |
DiskBytesWritten 1 3
|
ディスク書込みバイト | バイト | 書込みスループット。一定時間当たりに書き込まれたバイト数として表されます。 | |
DiskIopsRead 1 3
|
ディスク読取りI/O | 操作 | I/O読取りからのアクティビティ・レベル。一定時間当たりの読取り数として表されます。 | |
DiskIopsWritten 1 3
|
ディスク書込みI/O | 操作 | I/O書込みからのアクティビティ・レベル。一定時間当たりの書込み数として表されます。 | |
LoadAverage
|
平均のロード | プロセス数 | 1分を期間として計算したシステムの平均負荷。 | |
MemoryAllocationStalls
|
メモリー割当てのストール | ストール数 | ページ再利用が直接コールされた回数。 | |
MemoryUtilization 1
|
メモリー使用率 | % |
現在使用中の領域。ページ単位で測定されます。使用済ページの割合として表されます。 インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。 |
|
NetworksBytesIn 1 2
|
ネットワーク受信バイト | バイト |
ネットワーク受信スループット。受信したバイト数で表されます。 |
|
NetworksBytesOut 1、 2
|
ネットワーク送信バイト | バイト | ネットワーク送信スループット。送信したバイト数で表されます。 | |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
使用可能なメトリック: gpu_infrastructure_health
コンピュート・インスタンス・メトリックでは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースgpu_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- コンポーネント
- GPUまたはrdma_nic
- 時刻
- ペイロード/ハートビートが発行されるUTC時間
- バージョン
- 互換性のペイロード・バージョン番号
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
GpuUtilization
|
GPU利用率 | % |
GPUの活動レベル合計時間に対する割合として表されます。 インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。 |
|
GpuMemoryUtilization
|
GPUメモリー使用率 | % | 使用中のGPUメモリー・リソースの割合。 | |
GpuPowerDraw
|
GPU消費電力 | 整数 | 使用されるGPU電力の量。 | |
GpuTemperature
|
GPU温度 | 整数 | GPU温度が報じた。 | |
GpuEccSingleBitErrors
|
GPUシングルビット・エラー | 整数 | 報告されたGPUシングル・ビットECCエラーの数。 | |
GpuEccDoubleBitErrors
|
GPUダブルビットエラー | 整数 | 報告されたGPUダブル・ビットECCエラーの数。 | |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
障害メトリック: gpu_infrastructure_health
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
Fault
|
GPUフォルト | 件数 |
値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
使用可能なメトリック: rdma_infrastructure_health
コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースrdma_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- コンポーネント
- GPUまたはrdma_nic
- 時刻
- ペイロード/ハートビートが発行されるUTC時間
- バージョン
- 互換性のペイロード・バージョン番号
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
RdmaTxBytes
|
RDMA集約ネットワーク送信バイト数 | バイト | RDMAインタフェースで送信されたバイト数。 |
|
RdmaRxBytes
|
RDMA集約ネットワーク受信バイト数 | バイト | RDMAインタフェースで受信されたバイト数。 | |
RdmaTxPackets
|
RDMA集約ネットワーク送信パケット | 整数 | 送信したRDMAインタフェース・パケットの数。 | |
RdmaRxPackets
|
RDMA集約ネットワーク受信パケット | 整数 | 受信したRDMAインタフェース・パケットの数。 | |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
障害メトリック: rdma_infrastructure_health
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
RdmaLinkSpeedFault
|
フォルト | 件数 | リンク速度障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieAddressFault
|
フォルト | 件数 | PCIEアドレスの障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieBerCheckFault
|
フォルト | 件数 | PCIE BER障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCableFlapFault
|
フォルト | 件数 | PCIEケーブルのフラップ障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCablePlugFault
|
フォルト | 件数 | PCIEケーブルプラグの障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCableStateFault
|
フォルト | 件数 | PCIEケーブルの状態障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
コンソールの使用
- ナビゲーション・メニューを開き、「コンピュート」を選択します。「コンピュート」で、「インスタンス」を選択します。
- 関心のあるインスタンスをクリックします。
- 「リソース」で、「メトリック」をクリックします。
-
「メトリック・ネームスペース」リストで、oci_computeagentを選択します。
メトリック・ページに、現在のインスタンスのデフォルトのチャート・セットが表示されます。
インスタンスのメトリック・チャートが表示されないメトリック・チャートがまったく表示されない場合、インスタンスからメトリックが出力されていない可能性があります。次に示す考えられる原因と解決方法を参照してください。
考えられる原因 確認方法 解決策 コンピュート・インスタンスのモニタリング・プラグインがインスタンスで無効になっているか、プラグインが停止しています。 インスタンス・プロパティを確認します。 コンピュート・インスタンスのモニタリング・プラグインを有効にして、すべてのプラグインを起動します。 VCNでインターネットが使用されていないため、インスタンスはモニタリング・サービスにアクセスできません。 インスタンスのIPアドレスを確認します。パブリックでない場合は、サービス・ゲートウェイが必要です。 サービス・ゲートウェイを設定します インスタンスは、サポートされているイメージを使用しません。 サポートされているイメージを確認します。 サポートされているイメージを使用してインスタンスを作成します。 古いイメージおよびカスタム・イメージ: インスタンス上にOracle Cloud Agentソフトウェアが存在しません。 インスタンスに接続し、ソフトウェアを探します。 Oracle Cloud Agentソフトウェアをインストールします。 Oracle Cloud Agentソフトウェアに問題があります。 (なし) Oracle Cloud Agentのトラブルシューティング・ステップに従います。
APIの使用
APIの使用およびリクエストの署名の詳細は、REST APIのドキュメントおよびセキュリティ資格証明に関する項を参照してください。SDKの詳細は、SDKおよびCLIを参照してください。
