データ・ラベリングについて

データ・ラベリングの概要、その内容および使用方法について説明します。

データ・ラベリングは、ドキュメント、テキストおよびイメージ(レコード)のプロパティ(ラベル)を識別し、それらのプロパティに注釈(ラベル)を付けるプロセスです。ニュース記事、ツイートのセンチメント、画像のキャプション、音声録音で話される重要な言葉、ビデオのジャンルは、すべてデータ・ラベルの例です。

多くの機械学習手法では、マシンのトレーニングに使用して自律的なタスクを完了する前に、ラベル付けされたデータが必要です。そのため、データ・ラベリングは人工知能(AI)または機械学習(ML)プロジェクトに不可欠な部分です。

データ・ラベル付けでは、データセットの作成と参照、データ・レコード(ドキュメント、テキストおよびイメージ)の表示およびラベルの適用によるAI/MLモデルの構築が可能です。データセットを行区切りJSONとしてエクスポートして、機械学習モデル開発で使用できます。データセットは、教師ありトレーニングをサポートするために、他のデータおよびAIサービス間でアクセス可能かつ相互運用可能です。たとえば、Oracle Cloud Infrastructure Languageを使用して専用モデルを作成できますが、それが可能なのはラベル付けされたデータをモデルのトレーニングに使用できる場合のみです。データ・ラベリングでは、最小限の構成ステップでRAWデータセットのラベル付けをすばやく開始できます。そのため、Oracle Cloud Infrastructure AIサービスのデータ・ラベリング・エクスペリエンスも提供されます。

ドキュメント、テキストおよびイメージでサポートされているファイル・タイプおよびコンテンツ・タイプの詳細は、「サポートされているファイル・フォーマット」を参照してください。

データセットは、データ・ラベリングで使用可能なコア・リソースです。データ・レコードとそれに関連付けられたラベルで構成されます。データ・レコードは、ドキュメント、単一のイメージまたはテキストを表します。ラベルはテキストの文字列であり、データ・レコードに関連付けられると注釈になります。注釈には、オブジェクト検出、境界ボックス座標などのその他の関連データがあります。注釈のないデータ・レコードも存在できます。データセットをJSONマニフェストとしてエクスポートして、機械学習モデル開発への入力として使用できます。
ヒント

このサービスについて紹介するビデオをご覧ください。
データ・ラベリングを使用するには:
  1. 設定(オブジェクト・ストレージでのバケットの作成、ユーザー・ポリシーの設定を含む)を行います。
  2. データセットを作成します。
  3. データセットにレコードを生成します。
  4. ドキュメントイメージ、またはテキストの一部にラベルを追加します。
  5. 他の場所で使用するためにデータセットをオブジェクト・ストレージにエクスポートします。