名前付きエンティティの認識
名前付きエンティティの認識(NER)では、テキスト内の名前付きエンティティを検出します。
NERモデルは、自然言語処理を使用して様々な名前付きエンティティを探します。抽出されたエンティティごとに、NERは、抽出されたエンティティの場所(オフセットと長さ)および信頼度スコア(値0から1)を返します。
入力テキストでサポートされる言語
- 英語
- スペイン語
ユース・ケース
次のシナリオではNERエンドポイントを効果的に使用できます:
- ニュース・プロバイダのコンテンツの分類
-
ニュース記事のコンテンツを分類してカテゴリを判別するのは難しい場合があります。NERモデルは、記事を自動的にスキャンして、記事に含まれる主要な人物、組織および場所を識別できます。抽出されたエンティティは、タグとして関連する記事に保存できます。各記事の関連タグを認識することで、記事を定義済階層に自動的に分類でき、コンテンツ検出に役立ちます。
- カスタマ・サポート
-
顧客の苦情やフィードバック、製品の仕様、部門の詳細情報または会社の支部の詳細情報において関連エンティティを認識することが、フィードバックを適切に分類するために役立ちます。その後、識別された製品の担当者にエンティティを転送できます。
同様に、フィードバック・ツイートが行われると、それらすべてをその位置や言及された製品に基づいて分類できます。
- 有効な検索アルゴリズム
-
NERを使用すると、問合せについてオンラインで数百万もの記事やWebサイトを検索するかわりに、エンティティを抽出してから問合せに対して検索できます。記事に対して実行すると、各記事に関連付けられたすべての関連エンティティが抽出され、別々に格納されます。このように分離することで、検索プロセスが大幅に高速化されます。検索語は各記事の少数のエンティティのリストのみと照合されるため、検索を迅速かつ効率的に行うことができます。
これは、数百万件の研究論文、ウィキペディア記事、ブログ、記事などのコンテンツを検索するために使用できます。
- 推奨コンテンツ
-
特定の記事からエンティティを抽出し、含まれているエンティティの類似性が最も高い他の記事を推奨することが、NERでは可能です。たとえば、これを使用して、メディア業界クライアントのために推奨コンテンツを効率よく開発することができます。これによって、履歴コンテンツすなわち以前のアクティビティに関連付けられたエンティティの抽出が可能になります。NERは、これらを他の未見コンテンツに割り当てられたラベルと比較して、関連するエンティティをフィルタ処理します。
- 就職希望者の自動集計
-
NERモデルを使用すると、多数のアプリケーションによって就職希望者を絞り込むために必要な作業を簡素化することで、就職希望者の評価を円滑に進めることができます。採用担当者は、場所、学位、雇用主、スキル、肩書、資格、特許など、識別されたエンティティに基づいてフィルタ処理や分類を行うことができます。
サポートされているエンティティ
次の表で、NERが抽出できる様々なエンティティについて説明します。エンティティのタイプおよびサブタイプは、コールするAPI (detectDominantLanguageEntities
またはbatchDetectDominantLanguageEntities
)によって異なります。
下位互換性を維持するため、サブタイプの概念を導入した際にdetectDominantLanguageEntities
は変更されませんでした。batchDetectDominantLanguageEntities
エンドポイントを使用することをお薦めします。このサービスではタイプとサブタイプが使用されるためです。バッチ処理APIを導入するためにisPii
プロパティは削除されました。これは、次の表に示すように、サポートされているエンティティ・タイプを使用して計算することができます。
エンティティ(完全名) | エンティティ・タイプ(予測内) | エンティティ・サブタイプ(予測内) | 単一レコードAPI /バッチAPI (空の場合、両方のAPIで同じです) | PII | 説明 |
---|---|---|---|---|---|
DATE |
DATE |
単一レコード |
X |
絶対的または相対的な、日付、期間および日付範囲。 例: 6月10日 8月の第3金曜日 3月の第1週 |
|
DATETIME |
DATE |
バッチ | |||
EMAIL |
EMAIL |
√ | |||
EVENT |
EVENT |
お問い合わせ | 名前が付けられているハリケーンやスポーツ・イベントなど。 | ||
FACILITY |
FACILITY |
単一レコード | お問い合わせ | 建物、空港、高速道路、橋など。 | |
LOCATION |
FACILITY |
バッチ | |||
GEOPOLITICAL ENTITY |
GPE |
単一レコード | お問い合わせ | 国、市、都道府県。 | |
LOCATION |
GPE |
バッチ | |||
IP ADDRESS |
IPADDRESS |
√ | IPv4および IPv6標準に基づくIPアドレス。 | ||
LANGUAGE |
LANGUAGE |
お問い合わせ | 指定されている言語。 | ||
LOCATION |
LOCATION |
お問い合わせ | GPE以外の場所、山脈、水域。 | ||
CURRENCY |
MONEY |
単一レコード |
X |
単位を含む金銭価値。 | |
QUANTITY |
CURRENCY |
バッチ | |||
|
NORP |
お問い合わせ | 国家、宗教または政治団体。 | ||
ORGANIZATION |
ORG |
お問い合わせ | 会社、代理店、機関など。 | ||
PERCENTAGE |
PERCENT |
単一レコード | お問い合わせ | 割合 | |
QUANTITY |
PERCENTAGE |
バッチ | |||
PERSON |
PERSON |
√ | 人(架空の人物を含む)。 | ||
PHONENUMBER |
PHONE_NUMBER |
√ |
サポートされている電話番号:
|
||
PRODUCT |
PRODUCT |
お問い合わせ | 車両、工具、食品など(サービス以外)。 | ||
NUMBER |
QUANTITY |
単一レコード | お問い合わせ | 測定(重量または距離)。 | |
QUANTITY |
NUMBER |
バッチ | X | ||
TIME |
TIME |
単一レコード |
お問い合わせ
|
24時間未満の時間、期間など。 | |
DATETIME |
TIME |
バッチ | |||
URL |
URL |
√ | URL |
例
入力テキスト | エンティティおよびスコア |
---|---|
|
|
|
|
最初の例のJSONは次のとおりです:
- サンプル・リクエスト
-
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
- APIリクエスト形式:
-
"{ "documents": [ { "key": "doc1", "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner." } ] }"
- レスポンスJSON:
-
{ "documents": [ { "key": "1", "entities": [ { "offset": 0, "length": 15, "text": "Red Bull Racing", "type": "ORGANIZATION", "subType": null, "score": 0.9914557933807373, "metaInfo": null }, { "offset": 16, "length": 5, "text": "Honda", "type": "ORGANIZATION", "subType": null, "score": 0.6515499353408813, "metaInfo": null }, { "offset": 27, "length": 9, "text": "four-time", "type": "QUANTITY", "subType": null, "score": 0.9998091459274292, "metaInfo": [ { "offset": 27, "length": 9, "text": "four-time", "subType": "UNIT", "score": 0.9998091459274292 } ] }, { "offset": 47, "length": 5, "text": "World", "type": "LOCATION", "subType": "NON_GPE", "score": 0.5825434327125549, "metaInfo": null }, { "offset": 79, "length": 27, "text": "Oracle Cloud Infrastructure", "type": "ORGANIZATION", "subType": null, "score": 0.998045802116394, "metaInfo": null }, { "offset": 108, "length": 3, "text": "OCI", "type": "ORGANIZATION", "subType": null, "score": 0.9986366033554077, "metaInfo": null } ], "languageCode": "en" } ], "errors": [] }
制約
-
場合によっては、エンティティは予期したとおりに分離または結合されません。
-
NERは、文のコンテキストを使用してエンティティを識別します。処理対象のテキストにコンテキストが存在しない場合は、予想どおりにエンティティが抽出されない可能性があります。
-
形式(構造やセマンティクス)が正しくないテキストではパフォーマンスが低下することがあります。
-
年齢は個別のエンティティではないため、年齢に関する機関は日付エンティティとして識別される場合があります。