データ・フロー統合
MLパイプラインのデータ・フロー・サポート機能を使用すると、ユーザーはデータ・フロー・アプリケーションをパイプライン内のステップとして統合できます。
この新機能により、ユーザーはMLパイプラインの他のステップとともにデータ・フロー・アプリケーション(Apache Spark as a Service)の実行をオーケストレーションし、大規模なデータ処理タスクを合理化できます。
データ・フロー・ステップを含むパイプラインが実行されると、そのステップに関連付けられたデータ・フロー・アプリケーションの新しい実行が自動的に作成および管理されます。データ・フロー実行は、パイプライン内の他のステップと同様に処理されます。正常に完了すると、パイプラインは実行を続行し、パイプラインのオーケストレーションの一部として後のステップを開始します。
MLパイプラインでのデータ・フロー・アプリケーションの使用は簡単です。
- 1. データ・フロー・ステップの追加
- MLパイプラインで「データ・フロー」ステップ・タイプを選択します。
- 2. データ・フロー・アプリケーションの選択
- ステップとして実行するデータ・フロー・アプリケーションを選択し、クラスタ・サイズや環境変数などのオプションを構成します。
- 3. パイプラインの実行
- パイプラインの実行を開始します。データ・フロー・ステップに到達すると、関連付けられたアプリケーションが実行されます。完了すると、結果がステップ実行に反映され、パイプラインは次のステップにシームレスに進みます。
ポリシー
パイプラインとのデータ・フロー統合には、次のポリシーを含めます:
- データ・フローとパイプラインの統合。
- OCIサービスへのパイプライン実行アクセス。
- (オプション)カスタム・ネットワーキング・ポリシー(カスタム・ネットワーキングを使用する場合のみ)。
ノート
パイプライン実行によってデータ・フロー実行がトリガーされると、リソース・プリンシパル
パイプライン実行によってデータ・フロー実行がトリガーされると、リソース・プリンシパル
datasciencepipelinerun
が継承されます。したがって、datasciencepipelinerun
に権限を付与すると、パイプライン実行によって開始されたデータ・フロー内で実行されているコードにも権限が付与されます。パイプラインを使用したデータ・フローの構成
適切なポリシーが適用されていることを確認します。
クイック・スタート・ガイド
これは、データ・フロー・パイプラインを作成するためのステップバイステップ・ガイドです。