データ・カタログの概要
データ・カタログは、データ・コンシューマがデータを検出し、Oracleエコシステムでのガバナンスを改善するのに役立つメタデータ管理サービスです。
OCI Data Catalogを使用すると、データ・アナリスト、データ・科学者、データ・エンジニアおよびデータ・スチュワードは、クラウド・ソースで使用可能なデータを検出するための単一のセルフサービス環境を持ちます。データ・カタログは、データ・プロバイダが技術メタデータとビジネス・メタデータで構成されるデータ・ディクショナリを作成するのに役立ちます。データ消費者は、分析およびデータ・サイエンス・プロジェクトのデータの適合性を簡単に評価できます。
データ・カタログの主な機能
- パブリックIPまたはプライベートIPを使用してアクセス可能な、サポートされている様々なデータ・ソースから技術メタデータを収集します。
- ビジネス用語集を含む共通の企業ボキャブラリを作成および管理します。詳細なリッチ・テキストの説明を使用して、カテゴリ、サブカテゴリおよび用語の階層を作成します。
- データ・エンティティおよび属性をビジネス用語、ユーザー定義プロパティまたはフリーフォーム・タグにリンクすることで、収集された技術メタデータを注釈で拡張します。
- データ・アセットを検索するか、データ・カタログを参照するか、クイック検索バーを使用して、必要な情報を検索します。
- スケジュールを使用して、ジョブの収集を自動化および管理します。
- REST APIとSDKを使用して、データ・カタログのエンタープライズ・クラス機能を他のアプリケーションと統合します。
データ・カタログの概念
データ・カタログを使用する際に、次の概念を理解することが重要です。
- データ・アセット
- データベース、オブジェクト・ストア、ファイルまたはドキュメント・ストア、メッセージ・キュー、アプリケーションなどのデータ・ソースを表します。
- 接続
- データ・ソースへの接続を確立するために必要な詳細が含まれています。接続は常に1つのデータ・アセットに関連付けられます。1つのデータ・アセットに複数の接続がある場合があります。
- 接続タイプ
- データ・アセットに接続するために接続で使用できるプロパティの様々なセットを定義します。
- 収集
- 接続したデータ・ソースから技術メタデータをデータ・カタログ・リポジトリに抽出するプロセスです。
- オブジェクト
- データ・カタログのオブジェクトは、データ・アセット、データ・エンティティ、属性、用語集、用語集など、データ・カタログで管理されるオブジェクトを表します。
- データ・オブジェクト
- データ・カタログのデータ・オブジェクトは、データ・アセットおよびデータ・エンティティを表します。
- データ・エンティティ
- データ・エンティティとは、データベース表やビューなどのデータの集合、または単一の論理ファイルです。通常、データ・エンティティには、そのデータを記述する多くの属性があります。
- ファイル名パターン
- ファイル名パターンは、複数のオブジェクト・ストレージ・ファイルを論理データ・エンティティにグループ化するために作成される正規表現です。
- 論理データ・エンティティ
- 論理データ・エンティティは、ファイル名パターンを作成してデータ・アセットに割り当てることで導出されるオブジェクト・ストレージ・ファイルのグループです。
- 属性
- 属性は、名前とデータ型を持つデータ・アイテムを記述します。たとえば、表の列やファイルのフィールドなどです。
- カスタム・プロパティ
- カスタム・プロパティは、ビジネス・コンテキストでデータ・カタログ・オブジェクトをエンリッチするために作成されます。
- 用語集
- 用語集は、会社のビジネス概念の集合です。用語集はカテゴリとビジネス用語で構成されます。
- カテゴリ
- カテゴリは用語集で作成され、論理的に関連するビジネス用語をグループ化します。カテゴリ内にカテゴリを作成して、用語をグループ化できます。
- 用語
- 用語とは、会社の様々なビジネスの利害関係者が合意したビジネス概念の実際の定義です。用語を使用してデータ・エンティティおよび属性を整理します。
- データ・カタログ・タグ
- タグは、データ・オブジェクトを論理的に識別するために作成するフリーフォーム・ラベルまたはキーワードです。タグはメタデータの分類および検出に役立ちます。データ・アセット、データ・エンティティおよび属性にタグを作成します。タグを使用すると、特定のタグ名でタグ付けされているすべてのデータ・オブジェクトを検索できます。
- ジョブ
- 収集プロセスを実行するタスク。ジョブはすぐに作成して実行することも、指定した頻度で実行するようスケジュールすることも、必要に応じて作成して実行することもできます。
- スケジュール
- 毎時、毎日、毎週または毎月実行できる自動ジョブ。
データ・カタログへのアクセス方法
コンソール、REST API、SDKsまたはCLIを使用してデータ・カタログにアクセスします。
ユーザーのプリファレンスおよび完了するタスクに対する適合性に基づいて、次のいずれかのオプションを使用します:
- コンソールは、使いやすいブラウザベースのインタフェースです。サポートされるブラウザのリストについては、Supported Browsersを参照してください。
ログイン・ページに移動するには、このページの上部にある「コンソール」リンクを使用します。クラウド・テナント、ユーザー名およびパスワードを入力するように求められます。
. - REST APIはほとんどの機能を提供しますが、プログラミングの専門知識を必要とします。エンドポイントの詳細と使用可能なAPIリファレンス・ドキュメントへのリンクは、APIリファレンスとエンドポイントを参照してください。
- Oracle Cloud Infrastructureは、フレームワークを作成しなくてもデータ・カタログと対話するSDKを提供します。
- コマンドライン・インタフェース(CLI)は、プログラミングを必要とせずに、迅速なアクセスとフル機能の両方を提供します。
リソース識別子
データ・カタログ・リソースには、Oracle Cloud ID (OCID)と呼ばれるOracleで割り当てられた一意の識別子があります。
リージョンと可用性ドメイン
データ・カタログは、リージョンおよび可用性ドメインに記載されているすべてのリージョンで使用できます。リージョンおよび可用性ドメインは、データ・カタログ・リソースの物理的および論理的な編成を示します。リージョンは限定された地理的領域で、可用性ドメインはリージョン内にある1つ以上のデータ・センターです。
制限および割当て制限
サービスの制限
データ・カタログでは、リージョンごとに2つのデータ・カタログ・インスタンスに制限されます。
コンパートメントの割当て
コンパートメントのデータ・カタログ・リソースの数を制限するには、割当て制限を作成します。例:
set data-catalog quota catalog-count to 1 in compartment <MyCompartment>
統合型サービス
データ・カタログは様々なサービスおよび機能と統合されています。
データ・カタログは、すべてのインタフェース(コンソール、SDK、CLIおよびREST API)の認証と認可を行うためにIAMと統合されます。
会社の管理者は、様々なサービスやリソースにアクセスできるユーザー、およびそのアクセスのタイプを制御するグループ、コンパートメントおよびポリシーを設定する必要があります。たとえば、ポリシーによって、ユーザーの作成、クラウド・ネットワークの作成と管理、インスタンスの作成、バケットの作成、オブジェクトのダウンロードを実行できるユーザーが制御されます。
会社が所有するOracle Cloud Infrastructureリソースを使用する必要のある通常のユーザー(管理者ではない)の場合は、管理者に連絡してユーザーIDの設定を依頼してください。管理者は、ユーザーが使用できるコンパートメントを確認できます。
共通ポリシーを作成して、データ・カタログ・ユーザーを認可できます。データ・カタログ・ポリシーを作成して、データ・カタログへのユーザー・アクセスを制御することもできます。
データ・カタログは、共通作業リクエストAPIと統合されています。データ・カタログ作業リクエストを参照してください。
データ・カタログはイベント・サービスと統合されています。データ・カタログ・イベントを参照してください。
Oracle Cloud Infrastructure Searchでは、異なるサービスやコンパートメントを経由せずに、テナンシのリソースを検索できます。検索問合せでdatacatalog
リソース・タイプを検索できます。
テナンシ・エクスプローラを使用すると、すべてのリージョンにわたって、特定のコンパートメント内のすべてのリソースを表示できます。テナンシ・エクスプローラは、検索サービスを利用しており、データ・カタログ・リソース・タイプdatacatalog
をサポートしています。
Oracle Cloud Infrastructure Monitoringを使用すると、メトリックおよびアラーム機能を使用してデータ・カタログ・リソースを積極的および受動的にモニターできます。
データ・カタログのメトリックは、次の測定に役立ちます:
- データ・カタログ・インスタンスに格納されているオブジェクトの数。
- 収集されたオブジェクトの数。
- オブジェクトの収集に要した時間。
- 収集中に発生したエラー。