データ・サイエンスのジョブ実行のスケジュール

このチュートリアルでは、データ統合を使用して、データ・サイエンス・ジョブのジョブ実行をスケジュールします。

主なタスクは:

データ・サイエンス・ジョブ・アーティファクトを使用してジョブを作成します。
RESTタスクを設定して、アーティファクトで作成されたジョブと同じ詳細を持つジョブを作成します。
スケジュールを設定し、RESTタスクに割り当てます。
タスク・スケジューラでデータ・サイエンス・ジョブを作成するようにします。

ローカル・マシンからdata-science-workコンパートメントと呼ばれるOracle Cloud Infrastructureコンパートメントに接続されたユーザーの図。ユーザーは、ジョブ・アーティファクトhello_world_job.pyを作成し、そのジョブをデータ・サイエンス・プロジェクトに送信します。データ・サイエンス・プロジェクトはDS Projectと呼ばれ、ジョブはhello_world_jobと呼ばれます。別のワークフローで、hello_world_workspaceというデータ統合ワークスペースから、hello_world_REST_taskがワークスペースのScheduler Applicationに公開されます。Scheduler Applicationには、hello_world_jobインスタンスをDS Projectに送信するhello_world_task_scheduleが含まれています。hello_world_task_scheduleには、hello_world_taskおよびhello_world_scheduleが含まれており、タスクのスケジュールはhello_world_scheduleからのものであることを示しています。DS Projectには、HELLO WORLD JOB RUNと呼ばれるScheduler Applicationからのスケジュール済ジョブ実行が示されています。

開始する前に

このチュートリアルを正常に実行するには、次が必要です:

要件

支払済Oracle Cloud InfrastructureアカウントまたはOracle Cloudプロモーションの新しいアカウントは、無料Oracle Cloudプロモーションのリクエストおよび管理を参照してください。
MacOS、LinuxまたはWindowsコンピュータ。

1. 準備

チュートリアル用の動的グループ、ポリシー、コンパートメントおよびデータ・サイエンス・プロジェクトを作成して設定します。

リソースの設定

次の詳細を使用して、データ・サイエンス・テナンシの手動構成チュートリアルを実行します:

ノート

以前にデータ・サイエンス・テナンシの手動構成を実行した場合は、次のステップを読み、このチュートリアルに適用されるポリシーを組み込んでください。

ステップ1のすべてのステップを実行します。ユーザー・グループを作成し、グループにdata-scientistsという名前を付けます。
ステップ2のすべてのステップを実行します。コンパートメントを作成し、作業のコンパートメントにdata-science-workという名前を付けます。
data-science-workコンパートメントの詳細ページから、<data-science-work-compartment-ocid>をコピーします。
ステップ3のすべてのステップに従います。 VCNとサブネットの作成。このステップは、このチュートリアルでは必須です。data-science-workコンパートメントで、ウィザードを使用して、datascience-VCNという名前でVCNを作成します。
ステップ4のCreating Policies, create a policy in the data-science-work compartment called data-science-policy, and only add the following policies:
```
allow group data-scientists to manage all-resources in compartment data-science-work 
allow service datascience to use virtual-network-family in compartment data-science-work
```
最初のポリシーはコンパートメントに対する管理権限を付与し、OCIサービスのすべてのリソースを管理できます。
ステップ5のポリシーを使用した動的グループの作成では、次の3つの一致ルールを使用してdata-science-dynamic-groupという動的グループを作成します:
<data-science-work-compartment-OCID>を、ステップ3でコピーしたOCIDに置き換えます。
```
ALL {resource.type='datasciencenotebooksession', resource.compartment.id='<data-science-work-compartment-ocid>'}
```
```
ALL {resource.type='datasciencemodeldeployment', resource.compartment.id='<data-science-work-compartment-ocid>'}
```
```
ALL {resource.type='datasciencejobrun', resource.compartment.id='<data-science-work-compartment-ocid>'}
```
ノート

必要となるのは、このチュートリアルで使用するdatasciencejobrunリソースに対する最後と一致するルールのみです。ノートブック・セッションおよびモデル・デプロイメントを操作するために準備するその他のデータ・サイエンス・リソースを追加します。
ステップ5では、root (テナンシ)コンパートメントにdata-science-dynamic-group-policyというポリシーを作成します。「手動エディタの表示」をクリックし、data-science-dynamic-groupに次のポリシーを追加します。
```
allow dynamic-group data-science-dynamic-group to manage all-resources in compartment data-science-work
allow dynamic-group data-science-dynamic-group to read compartments in tenancy
allow dynamic-group data-science-dynamic-group to read users in tenancy
```
ステップ6の場合ノートブック・セッションの作成、DS Projectというdata-science-workコンパートメントにプロジェクトを作成し、ノートブック・セッションの作成をスキップします。

ノート

このチュートリアルでは、データ・サイエンス・プロジェクトにDS Projectという名前を付け、後でデータ統合プロジェクトにDI Projectという名前を付けます。ステップ6の指示に従って、プロジェクトにInitial Projectという名前を付けないでください。

データ統合ポリシーの追加

データ統合サービスによるワークスペースの作成を許可します。

ナビゲーション・メニューを開き、「アイデンティティとセキュリティ」をクリックします。「アイデンティティ」で、「ポリシー」をクリックします。
左側のナビゲーションの「リストのスコープ」で、コンパートメントのdata-science-workをクリックします。
「リソースの設定」ステップで作成した「data-science-policy」をクリックします。
「ポリシー・ステートメントの編集」をクリックします。
「詳細」をクリックします。

新しい行に、次の文を追加します。

allow service dataintegration to use virtual-network-family in compartment data-science-work

「変更の保存」をクリックします。

ノート

前述のポリシーでは、データ統合サービスの「ワークスペースの作成」ダイアログにdata-science-workコンパートメント内のSCNがリストされ、作成時にVCNをワークスペースに割り当てることができます。次に、ワークスペースはこのVCNをリソースに使用します。

動的グループへのデータ統合の追加

このステップでは、data-science-dynamic-groupにデータ統合ワークスペースを追加します。data-science-dynamic-group-policyは、この動的グループのすべてのメンバーにdata-science-familyを管理することを許可します。これで、タスク・スケジュールなどのワークスペース・リソースで、データ・サイエンス・ジョブを作成できます。

ナビゲーション・メニューを開き、「アイデンティティとセキュリティ」をクリックします。「アイデンティティ」で、「動的グループ」をクリックします。
動的グループのリストで、「リソースの設定」ステップで作成した「data-science-dynamic-group」をクリックします。
「すべての一致ルールの編集」をクリックします。
次の一致ルールを追加します:
```
ALL {resource.type='disworkspace', resource.compartment.id='<data-science-work-compartment-ocid>'}
```
<data-science-work-compartment-OCID>をdatascience-workコンパートメントのOCIDに置き換えます。

ヒント

<data-science-work-compartment-ocid>は、data-science-dynamic-group一致ルールの別のルールからコピーできます。これは、すべてのルールがdatascience-workコンパートメントを指しているためです。

前述の一致ルールは、コンパートメントで作成されたすべてのデータ統合ワークスペースがdata-science-dynamic-groupに追加されることを意味します。data-science-dynamic-group用に作成されたdata-science-dynamic-group-policyが、このコンパートメントのワークスペースに適用されるようになりました。

2. ジョブ実行の設定

ジョブ・アーティファクトの作成

ジョブおよびジョブ実行で使用するhello world Pythonジョブ・アーティファクトを作成します:

次のPythonコードをテキスト・ファイルにコピーします。
```
# simple job
print("Hello world job!")
```
コードをhello_world_job.pyとしてローカル・マシンに保存します。

ジョブの作成

hello worldジョブ・アーティファクトを使用してジョブを作成します:

ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「機械学習」で、「データ・サイエンス」をクリックします。
コンパートメントとして「data-science-work」をクリックします。
このチュートリアルの「リソースの設定」セクションで作成したDS Projectをクリックします。
「ジョブ」をクリックします。
「ジョブの作成」をクリックします。
次のオプションを設定します:
- 名前: hello_world_job
- ジョブ・アーティファクトのアップロード: 「ジョブ・アーティファクトの作成」セクションのhello_world_job.pyファイル。
- デフォルト構成: スキップ
- コンピュート・シェイプ:
  - 高速起動
  - VM.Standard2.1
- ロギング: スキップ
- 記憶域: 50
- ネットワーキング・リソース: デフォルト・ネットワーキング
「作成」をクリックします。

参照: ジョブの作成

ジョブ実行の開始

hello_world_jobを実行します:

ジョブを作成するときに、そのジョブのインフラストラクチャおよびアーティファクトを設定します。次に、インフラストラクチャをプロビジョニングするジョブ実行を作成し、ジョブ・アーティファクトを実行し、ジョブが終了したら、使用されているリソースをプロビジョニング解除および破棄します。

hello_world_jobページで、「ジョブ実行の開始」をクリックします。
data-science-workコンパートメントを選択します。
ジョブ実行にhello_world_job_run_testという名前を付けます。
「ロギング構成のオーバーライド」および「ジョブ構成のオーバーライド」セクションをスキップします。
「開始」をクリックします。
現在のページ(現在はジョブ実行の詳細ページ)が表示されるトレイルで、「ジョブ実行」をクリックし、戻ってジョブ実行のリストを取得します。
hello_world_job_run_testについて、ステータスが受入れ済から進行中に変わり、最後に成功に変わるのを待ってから、次の手順に進みます。

参照: ジョブ実行の開始

ジョブ情報の収集

hello_world_jobをスケジューリングに使用するには、ジョブに関するいくつかの情報を準備する必要があります:

Oracle Cloud Infrastructure コンソールから次の情報を収集し、ノートパッドにコピーします。
- jobId: <data-science-hello-world-job-ocid>
  - データ・サイエンスで、hello_world_jobの詳細ページに移動し、OCIDをコピーします。
  - OCIDはocid1.datasciencejobで始まります。
- projectId: <data-science-project-ocid>
  - データ・サイエンスのhello_world_jobのジョブ詳細ページから、「ジョブ」に戻り、DS ProjectのOCIDをコピーします。
  - OCIDはocid1.datascienceprojectで始まります。
- compartmentId: <data-science-work-compartment-ocid>
  - 「リソースの設定」セクションからOCIDを取得します。
  - OCIDはocid1.compartmentで始まります。
Region: <region-identifier>
- コンソールの上部にあるナビゲーション・バーから、リージョンを検索します。たとえば、米国西部(フェニックス)です。
- リージョンと可用性ドメインから、リージョンの<region-identifier>を見つけます。例: us-phoenix-1。

3. タスクの設定

コンポーネントの視覚的な関係については、スケジューラ図を参照してください。

ワークスペースの作成

ジョブ実行を作成するタスクを使用してプロジェクトをホストするワークスペースを作成します。

ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「データ・レイク」で、「データ統合」をクリックします。
「ワークスペース」をクリックします。
コンパートメントとして「data-science-work」をクリックします。
「作業領域の作成」をクリックします。
オプションの入力をスキップして、次のオプションを設定します:
- 名前: hello_world_workspace
- ネットワークの選択:
  - プライベート・ネットワークの有効化: 選択
  - VCN: 「リソースの設定」セクションで作成したdatascience-vcnネットワーク。
  - サブネット: Private Subnet-datascience-vcn
「作成」をクリックします。

ワークスペースが「アクティブ」になったら、次のステップに進みます。

参照: ワークスペースの作成

ノート

このワークスペースではdatascience-vcnが使用され、作成したデータ・サイエンス・ジョブでは、データ・サイエンスが提供する「デフォルト・ネットワーキング」オプションが使用されます。データ統合サービスにdata-science-workコンパートメント内のすべてのリソースへのアクセス権を付与したため、VCNが異なっていても問題ありません。データ統合にはdatascience-VCNにスケジューラがあり、デフォルト・ネットワーキングVCNでジョブ実行を作成します。

プロジェクト名の更新

hello_world_workspaceで、システム生成プロジェクト名を更新します。

ワークスペースhello_world_workspaceで、システム生成プロジェクト「My First Project」をクリックします。
「編集」をクリックします。
プロジェクトの名前をMy First ProjectからDI Projectに変更します。
「説明」で、次のように入力します:
Data Integration project to host the hello_world_REST_task.
「変更の保存」をクリックします。

ノート

このプロジェクトがデータ統合プロジェクトであり、データ・サイエンス・プロジェクトではないことが明確になるように、プロジェクト名を変更します。

ワークスペースでのRESTタスクの作成

タスクを作成し、ジョブ実行を作成するためのREST APIパラメータを定義します。

現在のページを表示するトレイルで、hello_world_workspaceワークスペースに戻ります。
hello_world_workspaceの「クイック・アクション」パネルで、「RESTタスクの作成」をクリックします。
タスクにhello_world_REST_taskという名前を付けます。
「プロジェクトまたはフォルダ」で、「DIプロジェクト」を選択します。
REST API詳細を構成します:
- HTTPメソッド: POST
- URL: URLのAPIエンドポイントおよびパスを検索します:
  - データ・サイエンスAPIから、リージョンのAPIエンドポイントをコピーします。エンドポイントに、「ジョブ情報の収集」セクションでコピーした<region-identifier>を含める必要があります。
    https://datascience.<region-identifier>.oci.oraclecloud.com
  - POST /<REST_API_version>/jobRunsから、CreateJobRunのPOSTコマンドをコピーします。
    /<REST_API_version>/jobRuns
  - 2つのセクションをまとめます:
    https://datascience.<region-identifier>.oci.oraclecloud.com/<REST_API_version>/jobRuns
    例:
    https://datascience.us-phoenix-1.oci.oraclecloud.com/20190101/jobRuns
- リクエスト: 「リクエスト」リンクをクリックしてアクティブ化し、CreateJobRunDetailsリファレンスの次の属性で本文を作成します:
```
{
    "projectId": "<data-science-project-ocid>",
    "compartmentId": "<data-science-work-compartment-ocid>",
    "jobId": "<data-science-hello-world-job-ocid>",
    "definedTags": {},
    "displayName": "HELLO WORLD JOB RUN",
    "freeformTags": {},
    "jobConfigurationOverrideDetails": {
    "jobType": "DEFAULT"
    }
}
```
  リクエスト本文で、カッコの付いたフィールドを「ジョブ情報の収集」セクションの情報に置き換えます。
  例:
```
{
    "projectId": "ocid1.datascienceproject.oc1....",
    "compartmentId": "ocid1.compartment.oc1.....",
    "jobId": "ocid1.datasciencejob.oc1....",
    "definedTags": {},
    "displayName": "HELLO WORLD JOB RUN",
    "freeformTags": {},
    "jobConfigurationOverrideDetails": {
    "jobType": "DEFAULT"
    }
}
```
- 「次」をクリックし、デフォルト条件を確認して、デフォルト・オプションをそのまま使用します:
  成功条件: SYS.RESPONSE_STATUS >= 200 AND SYS.RESPONSE_STATUS < 300
「構成」をクリックします。
「認証」で、次のオプションを構成します:
- 認証: OCIリソース・プリンシパル
- 認証ソース: ワークスペース
「構成」をクリックします。
「パラメータ(オプション)」パネルの構成をスキップします。
「タスクの検証」をクリックします。
「検証: 成功」が表示されたら、「作成」をクリックします。

RESTタスクが正常に作成されたことがワークスペースに表示された後、「保存して閉じる」をクリックします。

ノート

RESTタスクのリクエスト本文で、ジョブ実行の作成に必要なパラメータに値を割り当てます。このチュートリアルの「ジョブの作成」セクションで、データ・サイエンスで作成したhello_world_jobと同じ値を使用します。

参照:

アプリケーションの作成

スケジュールに従ってRESTタスクを実行するスケジューラ・アプリケーションを作成します。

hello_world_workspaceワークスペースの「クイック・アクション」パネルで、「アプリケーションの作成」をクリックします。
アプリケーションにScheduler Applicationという名前を付けます。
「作成」をクリックします。

アプリケーションへのRESTタスクの追加

hello_world_REST_taskをScheduler Applicationに追加します:

現在のページを表示する証跡で、hello_world_workspaceワークスペースに移動し、「プロジェクト」リンクをクリックします。
「DIプロジェクト」をクリックします。
「タスク」をクリックします。
「タスク」のリストで、hello_world_REST_taskの「アクション」メニューをクリックし、「アプリケーションに公開」をクリックします。
「アプリケーション名」で、「Scheduler Application」をクリックします。
「発行」をクリックします

タスクの実行

hello_world_REST_taskをスケジュールする前に、タスクを手動で実行してテストします:

hello_world_workspaceワークスペースで、「アプリケーション」リンクをクリックします。
「Scheduler Application」をクリックします。
タスクが公開されていることを確認します。このアプリケーションのタスクにhello_world_REST_taskがリストされているかどうかを確認します。
タスクのリストで、hello_world_REST_taskの「アクション」メニューをクリックし、「実行」をクリックします。
「実行」のリストで、最新の実行hello_world_REST_task_<id>をクリックします。

例:

hello_world_REST_task_1651261399967_54652479
実行のステータスが「未開始」から「成功」に変更されるまで待ちます。
ノート

トラブルシューティング
- 「エラー」ステータスが表示された場合は、プロジェクトに戻り、RESTタスクに割り当てたOCIDを含むRESTタスクのURLおよびリクエスト本文を確認します。次に:
  1. hello_world_REST_task URLまたはリクエスト本文を修正して更新します。
  2. hello_world_REST_taskを非公開にして公開します。
  3. このセクションのすべてのステップを繰り返します。

ジョブ実行の確認

データ・サイエンス・ジョブ実行に、データ統合から実行したタスクが表示されていることを確認します。

ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「機械学習」で、「データ・サイエンス」をクリックします。
data-science-workコンパートメントを選択します。
「リソースの設定」セクションで作成したDS Projectをクリックします。
「ジョブ」をクリックします。
hello_world_jobをクリックします。
ジョブ実行のリストでHELLO WORLD JOB RUNを見つけます。
HELLO WORLD JOB RUNは、hello_world_REST_taskを設定したときにジョブ実行に付けた名前です。
ステータスが「受入れ済」から「進行中」に変わり、最後に「成功」に変わるのを待ちます。

参照: ジョブ実行の開始

4. タスクのスケジュールと実行

公開されたhello_world_REST_taskを実行するスケジュールを作成します。

スケジュールの作成

ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「データ・レイク」で、「データ統合」をクリックします。
「ワークスペース」をクリックします。
data-science-workコンパートメントを選択します。
hello_world_workspaceをクリックします。
「アプリケーション」、「Scheduler Application」の順にクリックします
左側のナビゲーション・パネルで、「スケジュール」をクリックします。
「スケジュールの作成」をクリックします。
次のオプションを設定します:
- 名前: hello_world_schedule
- 識別子: HELLO_WORLD_SCHEDULE
- タイムゾーン: UTC
  ユニバーサル・タイム・ゾーンのデフォルト値が維持されていることを確認します:
  (UTC+00:00) Coordinated Universal Time (UTC)
- 頻度: 毎時
  - 繰返し間隔: 1 (1時間)
  - Minutes: 0
  - サマリー: 毎時0分過ぎ
  ヒント
  
  時間を確認し、「分」を現在の時間の5分後に変更します。たとえば、現在の時間が11:15の場合、「分」を20に変更します。このようにすると、ジョブの実行を確認するために45分待機する必要はありません。このチュートリアルでは、次のセクションに対して0分を使用します。
「作成」をクリックします。

ノート

このステップでは、Scheduler Applicationでスケジュールを設定します。次のステップでは、スケジュールをhello_world_REST_taskに関連付けます。

参照: 公開済タスクのスケジュール

タスクのスケジューリング

公開されたhello_world_REST_taskにhello_world_scheduleを割り当てます:

hello_world_workspaceで、「アプリケーション」、「Scheduler Application」の順にクリックします。
左側のナビゲーション・パネルで、「タスク」をクリックします。
hello_world_REST_taskをクリックします。
「タスク・スケジュールの作成」をクリックします。
次のオプションを設定します:
- 名前: hello_world_REST_task_schedule
- 識別子: HELLO_WORLD_REST_TASK_SCHEDULE
- 説明: 公開されたhello_world_REST_taskにhello_world_scheduleを割り当てます。
- タスク・スケジュールの有効化: 選択
  「有効化」オプションでは、タスク・スケジュールを作成または保存するとすぐにスケジューラが起動されます。
- スケジュール: hello_world_scheduleを選択し、「選択」をクリックして前の画面に戻ります。
- 「タスク・スケジュールの構成」セクションの構成をスキップします。
「作成して閉じる」をクリックします。

タスク実行の確認

「タスク・スケジュール」のリストで、「タスクのスケジューリング」セクションで作成したhello_world_REST_task_scheduleをクリックします。
タスクスケジュールの詳細で、[次回実行]フィールドの値を検索します。
例、
例: Next run: Mon, Sep 19, 2022, 22:40:00 UTC
次回実行の時間をUTCタイム・ゾーンから自分のタイム・ゾーンに変換します。
「次回実行」に示された実行時間に達したら、「実行」セクションに実行が表示されるまで「リフレッシュ」をクリックします。
例: hello_world_REST_task_schedule_<some-id>

ジョブ実行の確認

データ・サイエンス・ジョブ実行に、データ統合からのスケジュール済タスクが表示されることを確認します。

ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「機械学習」で、「データ・サイエンス」をクリックします。
data-science-workコンパートメントを選択します。
このチュートリアルの「準備」セクションで作成したDS Projectをクリックします。
左側のナビゲーション・パネルで、「ジョブ」をクリックします。
hello_world_jobをクリックします。
ジョブ実行のリストで、HELLO WORLD JOB RUNインスタンスがスケジュールされた日付でリストされるまで待ちます。
「HELLO_WORLD_JOB_RUN」をクリックします。
「作成者」の値をノートパッドにコピーします。

例: ocid1.disworkspace.oc1.phx....
ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「データ・レイク」で、「データ統合」をクリックします。
「ワークスペース」をクリックします。
ワークスペースのリストで、hello_world_workspaceの「アクション」メニューをクリックします。
「OCIDのコピー」をクリックし、ワークスペースOCIDをコピーして、ステップ8でコピーした「作成者」の値と比較します。
2つのOCIDは同じです。
ノート

ジョブの作成者は、データ統合ワークスペースhello_world_workspaceのOCIDです。
(オプション)他のタスクに取り掛かり、1時間後に次のジョブ実行のために戻ります。

ノート

1時間未満の間隔でジョブを実行する場合は、分数の異なる複数の毎時スケジュールを作成します。たとえば、スケジュールが15分間隔になるようにするには、4つの毎時スケジュール(minute-0、minute-15、minute-30およびminute-45)を作成します。次に、hello_world_REST_taskに対して、各スケジュールに対応するタスク・スケジュールを作成します。たとえば、minute-15スケジュールのタスク・スケジュール、minute-30スケジュールの別のタスク・スケジュールなどです。

ジョブ実行の停止

1つ以上のジョブ実行を受け取ったら、このチュートリアルは完了です。これで、スケジューラを無効にして、新しいジョブ実行を停止できます。

hello_world_workspaceで、「アプリケーション」、「Scheduler Application」の順にクリックします。
左側のナビゲーション・パネルで、「タスク」をクリックします。
hello_world_REST_taskをクリックします。
タスク・スケジュールのリストで、hello_world_REST_task_scheduleをクリックします。
「無効化」をクリックします
確認ダイアログで「無効化」をクリックします。
このチュートリアル用に複数のタスク・スケジュールを作成した場合は、そのすべてを無効にします。

次の手順

データ・サイエンス・ジョブ実行が正常にスケジュールされました。

データ・サイエンス・ジョブの詳細は、データ・サイエンスのドキュメントの次のセクションを参照してください:

データ・サイエンスの詳細は、データ・サイエンス・チュートリアルおよびデータ・サイエンス学習ビデオを参照してください。