データ・ローダー・タスクのソースの選択
ロードするソース・データが含まれるデータ・アセット、接続およびスキーマを選択します。次に、データ・ローダー・タスクに指定したロード・タイプに応じて、スキーマ内の1つのデータ・エンティティまたは複数のデータ・エンティティを選択します。
ファイル・ストレージ・ソース・タイプ(オブジェクト・ストレージなど)から複数のデータ・エンティティを選択する場合は、ファイル・パターンを使用してパターンに一致するエンティティを追加し、論理エンティティ修飾子を使用して一致するエンティティを1つ以上のパターン・グループにグループ化できます。各パターン・グループは、実行時に論理エンティティとして処理されます。
データ・ローダー・タスクのソース・データを構成するには、まずデータ・アセット、接続およびスキーマを選択します。
リソースは、選択後にパラメータ化できます。
データ・エンティティ表から、ソースとして使用するデータ・エンティティを選択します。選択したデータ・エンティティのデータが、タスクの実行時にターゲットにロードされます。
使用可能なエンティティのリストからデータ・エンティティを選択した後、ソース・データ・エンティティをパラメータ化できます。
- 「ソース」ステップの「データ・エンティティ」タブに移動します。
-
次のいずれかのオプションを実行して、データ・エンティティを選択します。
-
「使用可能なデータ・エンティティ」表で、エンティティ名の横にあるチェック・ボックスをクリックして、1つのデータ・エンティティを選択します。次に、「ソースとして設定」をクリックします。選択したデータ・エンティティの名前が「選択したデータ・エンティティ」の横に表示されます。
使用可能なエンティティのリストをフィルタ処理するには、フィールドに名前またはパターンを入力し、[Enter]を押します。*などの特殊文字を使用して、名前の一部またはパターンを入力できます。たとえば、ADDRESS_EU1、ADDRESS_EU2およびADDRESS_EU3を検索するには、
ADDRESS_*
と入力します。 -
該当する場合は、「カスタムSQLの入力」をクリックし、「SQLの追加」をクリックします。
表示されるエディタ・パネルで、ソースとして使用するデータを定義する単一のSQL文を入力し、「検証」をクリックします。検証が成功したら、「追加」をクリックします。
ラベル
SQL_ENTITY<nnnnnnnnn>
が表示されます(たとえば、SQL_ENTITY123456789
)。文を表示または編集するには、「編集」をクリックします。
-
- (オプション)選択後に、ソース・データ・エンティティにパラメータを割り当てることができます。
- リソースの横にある「パラメータ化」をクリックして、そのリソースにパラメータを割り当てます。パラメータ化すると、データ統合によって適切なタイプのパラメータが追加され、そのリソースに対して現在構成されている値にデフォルト・パラメータ値が設定されます。
- 使用可能な場合は、「ターゲット・データ・エンティティ・パラメータの再利用」をクリックして、このソース・データ・エンティティのパラメータとしてターゲット・エンティティ・パラメータを使用します。詳細は、ソース・リソースまたはターゲット・リソースのパラメータの再利用を参照してください。
-
さらにデータ・ソースおよびローダー・タスクを構成するには、「設定」タブをクリックします(該当する場合)。ソース・タイプに応じて、構成できる設定は次のとおりです:
- 「プッシュダウンを許可」またはプッシュダウンをオフ: デフォルトでは、一部のデータ処理がソース・システムにオフロードされます。処理または変換をソース・システムの外で適用するには、チェック・ボックスの選択を解除します。
- 「スキーマ・ドリフトを許可」またはスキーマ定義のロック: デフォルトでは、指定したデータ・エンティティ内のスキーマ定義の変更が、自動的に検出されて選択されます(設計時および実行時)。基礎となるシェイプが変更された場合でも、指定したデータ・エンティティの固定シェイプを使用するには、このチェック・ボックスの選択を解除します。
JSONファイルの場合、スキーマ・ドリフトはデフォルトで無効になっており、カスタム・スキーマを使用してエンティティ・シェイプを推測する場合、有効にできません。スキーマ・ドリフトを使用可能にして有効にする場合は、データ・フローまたはデータ・ローダー・タスクでJSONソースを編集し、「カスタム・スキーマの使用」チェック・ボックスの選択を解除します。
- ファイル・メタデータを属性としてフェッチ: デフォルトでは、ファイル名、ファイル・サイズおよびその他のファイル・メタデータは、ソース・データに属性として含まれます。ファイル・メタデータを属性として使用しない場合は、チェック・ボックスの選択を解除します。
-
増分ロード: チェック・ボックスを選択して、ロード・プロセスの最終実行以降に作成または変更されたデータのみを識別してロードします。
(リレーショナル・データベース・ソースのみ)「ウォーターマーク」列で、増分ロードされた行のマークに使用する列を選択します。ウォーターマーク列として使用できるのは、
DATE
、TIMESTAMP
およびDATETIME
列のみです。
使用可能なデータ・エンティティのリストから、ソースとして使用するデータ・エンティティを選択します。データ・エンティティを個別に選択したり、使用可能なすべてのエンティティを選択したり、ファイル・パターンを使用してエンティティをグループとして選択することができます。選択したソース・データ・エンティティのデータが、タスクの実行時に、マップされたターゲットにロードされます。
データ統合では、ソースとして含めるデータ・エンティティのルールが作成されます。ルールは、個々のデータ・エンティティを選択するとき、またはファイル・パターン(グループ名の有無にかかわらず)を使用するときに追加されます。グループ化されたデータ・エンティティは、実行時に論理エンティティとして処理されます。
「選択したソース・データ・エンティティ」リストからデータ・エンティティを削除すると、そのデータ・エンティティはデータ・ローダー・タスクのソースに含まれなくなります。
データ・ローダー・タスクのソースとして使用するファイル・ストレージ・ソース・タイプ(オブジェクト・ストレージなど)から複数のデータ・エンティティを選択する場合は、ファイル・パターンを使用して、パターンに一致する既存のファイルをグループ化および追加できます。パターンに一致する将来の受信ファイルもグループに含まれます。
ファイル・パターンでは、logicalentity
修飾子を使用して、一致するエンティティを1つ以上のパターン・グループにグループ化することもできます。各パターン・グループは、実行時に論理エンティティとして処理されます。
複数のパターン・グループに一致するデータ・エンティティは、これらのすべてのグループに含まれます。
選択可能なデータ・エンティティの次のファイル名を考えてみます。
SRC_BANK_A_01.csv
SRC_BANK_B_01.csv
SRC_BANK_C_01.csv
SRC_BANK_C_02.csv
MYSRC_BANK_A_01.csv
MYSRC_BANK_B_01.csv
MYSRC_BANK_C_01.csv
MYSRC_BANK_C_02.csv
MYSRC_BANK_D_01.csv
MYSRC_BANK_D_02.csv
ファイル・パターンSRC*.csv
を使用すると、データ統合によってパターン・ルールが作成され、次のファイルがソースに追加されます。
SRC_BANK_A_01.csv
SRC_BANK_B_01.csv
SRC_BANK_C_01.csv
SRC_BANK_C_02.csv
ファイル・パターンMYSRC_BANK_C*.csv
を使用してグループ名MYSRC
を指定すると、データ統合によってグループ・ルールが作成されます。実行時に、グループ名は、パターンと一致するすべてのファイルをMYSRC
という名前の1つのソース・エンティティに統合します。たとえば、次のファイルが統合されます。
MYSRC_BANK_C_01.csv
MYSRC_BANK_C_02.csv
パターンに一致する将来の受信ファイルがグループに追加されます。例:
MYSRC_BANK_C_03.csv
MYSRC_BANK_C_04.csv
ファイル・パターンをlogicalentity
修飾子MYSRC_BANK_{logicalentity:B|D}*.csv
とともに使用し、グループ名接頭辞MYNEWSRC_
を指定すると、データ統合によってグループ・ルールが作成され、次の一致するファイルを統合する2つのパターン・グループが追加されます。
For pattern group MYNEWSRC_B:
MYSRC_BANK_B_01.csv
For pattern group MYNEWSRC_D:
MYSRC_BANK_D_01.csv
MYSRC_BANK_D_02.csv
データ統合では、ファイル・パターンを使用して複数のファイル(オブジェクト・ストレージなど)をグループとして選択し、データ・ローダー・タスクのソースに含めるときに、「ソース・データ・エンティティの選択」リストにグループが作成されます。
- 「ソース」ステップの「データ・エンティティ」タブに移動します。
- 「選択したソース・データ・エンティティ」リストで、グループ名をクリックします。
- 「パターン・グループ詳細の表示」パネルでは、グループの作成に使用されたパターン、およびパターンに一致するデータ・エンティティのリストを表示できます。
複数のデータ・エンティティを選択してデータ・ローダー・タスクのソースに含めると、データ統合によってルールが追加されます。
ルールが追加されるのは、個々のデータ・エンティティを選択したときか、該当する場合は、パターンまたはグループ別にエンティティを含めた場合です。ルールの数は、「選択したソース・データ・エンティティ」表の上にある「ルールの表示」の横にカッコに囲まれて表示示されます。たとえば、「ルールの表示(3)」です。
グループ・ルールを削除する前に、ルールの削除の影響を受けるデータ・エンティティのリストを確認してください。「グループに含まれるファイルのリストの表示」を参照してください。