データセットのインポート

データセットをインポートすると、データセットを最初から作成しなくても、同じテナンシ内でデータセットを再利用したり、コンテンツをマージして置換したりできます。

ノート

ローカル・ディレクトリから、データセットに最大201個のファイルをインポートでき、データセットのサイズは4.9 GB以下にできます。ファイル数またはデータセット・サイズがこれらの値を超える場合は、フォルダをオブジェクト・ストレージにアップロードします。サポートされている形式は、次のとおりです。
サポートされているデータセット形式および構造
フォーマット データセット・タイプ 注釈タイプ ファイル構造 最大ファイル数およびファイル・サイズ
JSONL

メタデータ

  • データ・ラベリングJSONL統合
  • コンパクトなJSONL
記録
  • JPEG
  • JPG
イメージ
  • 単一ラベル
  • 複数ラベル
  • オブジェクト検出
prefix/
├── *.jsonl
├── image-1.jpg
├── image-2.jpg
└── ...
  • メタデータ: 1ファイル、15 MB
JSONL

メタデータ

  • データ・ラベリングJSONL統合
  • コンパクトなJSONL
記録
  • TXT
テキスト
  • 単一ラベル
  • 複数ラベル
  • NER
prefix/
├── *.jsonl
├── Textfile-1.txt
├── Textfile-2.txt
└── ...
  • メタデータ: 1ファイル、15 MB
JSONL

メタデータ

  • データ・ラベリングJSONL統合
  • コンパクトなJSONL
記録
  • PDF
  • TIF
  • TIFF
文書
  • 単一ラベル
  • 複数ラベル
prefix/
├── *.jsonl
├── document-1.pdf
├── document-2.pdf
└── ...
  • メタデータ: 1ファイル、15 MB
COCO

メタデータ

  • JSON
記録
  • JPEG
  • JPG
イメージ オブジェクト検出
prefix/
├── *.json
├── image-1.jpg
├── image-2.jpg
└── ...
  • メタデータ: 1ファイル、9 MB
YOLO v5

メタデータ

  • YAML
  • YML
記録
  • イメージ
    • JPEG
    • JPG
    • TIFF
  • Label
    • TXT
イメージ オブジェクト検出
prefix/
├── *.yml
├── train
│   ├── images
│   │   ├── image-1.jpg
│   │   ├── image-2.jpg
│   │   └── ...
│   ├── labels
│   │   ├── image-1.txt
│   │   ├── image-2.txt
│   │   └── ...
  • メタデータ: 1ファイル、5 MB
PASCAL VOC

メタデータ

  • XML
記録
  • JPEG
  • JPG
イメージ オブジェクト検出
prefix/
├── annotation1.xml
├── annotation2.xml
├── annotation3.xml
├── ....
├── image-1.jpg
├── image-2.jpg
├── image-3.jpg
└── ...
  • メタデータ: 100ファイル、それぞれ5 MB
spaCy テキスト NER
prefix/
└── dataset-file.json
  • JSON: 1ファイル、210MB
CoNLL 2003年 テキスト NER
prefix/
└── dataset-file.conll
  • CONLL: 1ファイル、75MB

サポートされているファイル・タイプおよびサイズの詳細は、「サポートされているファイル形式」を参照してください。

メタデータ・ファイルのサンプル・コンテンツ

各メタデータ・ファイル・オプションのサンプル・ファイルの内容。

データ・ラベリングJSONL統合
{"id":"<Dataset OCID>",
"compartmentId":"<Compartment OCID>",
"displayName":"<Dataset Name>",
"description":"<Dataset Description>",
"labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...],
"annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>",
"datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"},
"datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"}
}
 
{"id":"<Record OCID>",
"timeCreated":"<Created datetime>",
"sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"},
"annotations":[{"id":"<Annotation OCID>",
"timeCreated":"<Created datetime>",
"createdBy":"<User OCID>",
"entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>",
"labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...],
"boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}]
}
 
...other record objects
コンパクトなJSONL
{"labelsSet":[{"name":"<Label Name>"},
{"name":"<Label Name>"},...],
"annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION",
"datasetFormatDetails":{"formatType":"TEXT"}
}
 
{"sourceDetails":{"path":"<Path of text recrod file>"},
"annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}]
}
 
...other record objects 
COCO
{
  "info": {
    "year": "<Year>",
    "version": "1",
    "description": "<Dataset description>",
    "contributor": "",
    "url": "<URL>",
    "date_created": "<Created datetime>"
  },
  "licenses": [
    {
      "id": 1,
      "url": "",
      "name": "Unknown"
    }
  ],
  "categories": [
    {
      "id": 0,
      "name": "animals",
      "supercategory": "none"
    },
    {
      "id": 1,
      "name": "cat",
      "supercategory": "animals"
    },
    {
      "id": 2,
      "name": "dog",
      "supercategory": "animals"
    }
  ],
  "images": [
    {
      "id": 1,
      "license": 1,
      "file_name": "<Record file path>",
      "height": 500,
      "width": 400,
      "date_captured": "<Captured datetime>"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "bbox": [84, 44, 282.5, 143],
      "area": 40397.5,
      "segmentation": [],
      "iscrowd": 0
    },
    ...
  ]
}
YOLO v5
train: ../train/images
nc: 4
names: ["Label1", "Label2", "Label3", "Label4", "..."]
PASCAL VOC
<annotation>
    <folder/>
    <filename>recordFile.jpg</filename>
    <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>
        <width>3800</width>
        <height>2534</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>LabelName</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <occluded>0</occluded>
        <bndbox>
            <xmin>186.94249</xmin>
            <xmax>1878.6903</xmax>
            <ymin>330.67606</ymin>
            <ymax>1396.7037</ymax>
        </bndbox>
    </object>
    <object>....</object>
    ...
</annotation>
spaCy
例1:
[
  {
    "content": "<Text Content>",
    "entities": [
       {
        "start": 0,
        "end": 29,
        "labelName": "<Label Name>"
      },
      {
        "start": 65,
        "end": 86,
        "labelName": "<Label Name>"
      },
      {
        "start": 80,
        "end": 104,
        "labelName": "<Label Name>"
      },
      ...
    ]
  },
  ...
]
例2
[
  {
    "text": "<Text Content>",
    "entities": [
      [0, 12, "<Label Name>"],
      [78, 91, "<Label Name>"],
      ...
    ]
  },
  ...
]
CoNLL 2003年
-DOCSTART- -X-O
This -X- _ B-Label1
is -X- _ I-Label1
sample -X- _ I-Label1
data, -X- _ I-Label1
and -X- _ O
new -X- _ O
data -X- _ O
  
information -X- _ O
new -X- _ B-Label1
sample -X- _ I-Label1
Data -X- _ O
...