名前付きエンティティの認識

名前付きエンティティの認識(NER)では、テキスト内の名前付きエンティティを検出します。

NERモデルは、自然言語処理を使用して様々な名前付きエンティティを探します。抽出されたエンティティごとに、NERは、抽出されたエンティティの場所(オフセットと長さ)および信頼度スコア(値0から1)を返します。

入力テキストでサポートされる言語

英語
スペイン語

ユース・ケース

次のシナリオではNERエンドポイントを効果的に使用できます:

ニュース・プロバイダのコンテンツの分類

ニュース記事のコンテンツを分類してカテゴリを判別するのは難しい場合があります。NERモデルは、記事を自動的にスキャンして、記事に含まれる主要な人物、組織および場所を識別できます。抽出されたエンティティは、タグとして関連する記事に保存できます。各記事の関連タグを認識することで、記事を定義済階層に自動的に分類でき、コンテンツ検出に役立ちます。

カスタマ・サポート

顧客の苦情やフィードバック、製品の仕様、部門の詳細情報または会社の支部の詳細情報において関連エンティティを認識することが、フィードバックを適切に分類するために役立ちます。その後、識別された製品の担当者にエンティティを転送できます。

同様に、フィードバック・ツイートが行われると、それらすべてをその位置や言及された製品に基づいて分類できます。

有効な検索アルゴリズム

NERを使用すると、問合せについてオンラインで数百万もの記事やWebサイトを検索するかわりに、エンティティを抽出してから問合せに対して検索できます。記事に対して実行すると、各記事に関連付けられたすべての関連エンティティが抽出され、別々に格納されます。このように分離することで、検索プロセスが大幅に高速化されます。検索語は各記事の少数のエンティティのリストのみと照合されるため、検索を迅速かつ効率的に行うことができます。

これは、数百万件の研究論文、ウィキペディア記事、ブログ、記事などのコンテンツを検索するために使用できます。

推奨コンテンツ

特定の記事からエンティティを抽出し、含まれているエンティティの類似性が最も高い他の記事を推奨することが、NERでは可能です。たとえば、これを使用して、メディア業界クライアントのために推奨コンテンツを効率よく開発することができます。これによって、履歴コンテンツすなわち以前のアクティビティに関連付けられたエンティティの抽出が可能になります。NERは、これらを他の未見コンテンツに割り当てられたラベルと比較して、関連するエンティティをフィルタ処理します。

就職希望者の自動集計

NERモデルを使用すると、多数のアプリケーションによって就職希望者を絞り込むために必要な作業を簡素化することで、就職希望者の評価を円滑に進めることができます。採用担当者は、場所、学位、雇用主、スキル、肩書、資格、特許など、識別されたエンティティに基づいてフィルタ処理や分類を行うことができます。

サポートされているエンティティ

次の表で、NERが抽出できる様々なエンティティについて説明します。エンティティのタイプおよびサブタイプは、コールするAPI (detectDominantLanguageEntitiesまたはbatchDetectDominantLanguageEntities)によって異なります。

ノート

下位互換性を維持するため、サブタイプの概念を導入した際にdetectDominantLanguageEntitiesは変更されませんでした。batchDetectDominantLanguageEntitiesエンドポイントを使用することをお薦めします。このサービスではタイプとサブタイプが使用されるためです。バッチ処理APIを導入するためにisPiiプロパティは削除されました。これは、次の表に示すように、サポートされているエンティティ・タイプを使用して計算することができます。


エンティティ(完全名)	エンティティ・タイプ(予測内)	エンティティ・サブタイプ(予測内)	単一レコードAPI /バッチAPI (空の場合、両方のAPIで同じです)	PII	説明
`DATE`	`DATE`		単一レコード	X	絶対的または相対的な、日付、期間および日付範囲。例: 6月10日 8月の第3金曜日 3月の第1週
`DATE`	`DATETIME`	`DATE`	バッチ	X	絶対的または相対的な、日付、期間および日付範囲。例: 6月10日 8月の第3金曜日 3月の第1週
`EMAIL`	`EMAIL`			√
`EVENT`	`EVENT`			お問い合わせ	名前が付けられているハリケーンやスポーツ・イベントなど。
`FACILITY`	`FACILITY`		単一レコード	お問い合わせ	建物、空港、高速道路、橋など。
`FACILITY`	`LOCATION`	`FACILITY`	バッチ	お問い合わせ	建物、空港、高速道路、橋など。
`GEOPOLITICAL ENTITY`	`GPE`		単一レコード	お問い合わせ	国、市、都道府県。
`GEOPOLITICAL ENTITY`	`LOCATION`	`GPE`	バッチ	お問い合わせ	国、市、都道府県。
`IP ADDRESS`	`IPADDRESS`			√	IPv4および IPv6標準に基づくIPアドレス。
`LANGUAGE`	`LANGUAGE`			お問い合わせ	指定されている言語。
`LOCATION`	`LOCATION`			お問い合わせ	GPE以外の場所、山脈、水域。
`CURRENCY`	`MONEY`		単一レコード	X	単位を含む金銭価値。
`CURRENCY`	`QUANTITY`	`CURRENCY`	バッチ	X	単位を含む金銭価値。
`NATIONALITIES, RELIGIOUS and POLITICAL GROUPS`	`NORP`			お問い合わせ	国家、宗教または政治団体。
`ORGANIZATION`	`ORG`			お問い合わせ	会社、代理店、機関など。
`PERCENTAGE`	`PERCENT`		単一レコード	お問い合わせ	割合
`PERCENTAGE`	`QUANTITY`	`PERCENTAGE`	バッチ	お問い合わせ	割合
`PERSON`	`PERSON`			√	人(架空の人物を含む)。
`PHONENUMBER`	`PHONE_NUMBER`			√	サポートされている電話番号: `("GB") - United Kingdom` `("AU") - Australia` `("NZ") - New Zealand` `("SG") - Singapore` `("IN") - India` `("US") - United States`
`PRODUCT`	`PRODUCT`			お問い合わせ	車両、工具、食品など(サービス以外)。
`NUMBER`	`QUANTITY`		単一レコード	お問い合わせ	測定(重量または距離)。
`NUMBER`	`QUANTITY`	`NUMBER`	バッチ	X	測定(重量または距離)。
`TIME`	`TIME`		単一レコード	お問い合わせ	24時間未満の時間、期間など。
`TIME`	`DATETIME`	`TIME`	バッチ	お問い合わせ	24時間未満の時間、期間など。
`URL`	`URL`			√	URL

例

入力テキストエンティティおよびスコア

入力テキスト	エンティティおよびスコア
`Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner.`	`Red Bull Racing Honda [ORG] 1.0000 four-time [QUANTITY/NUMBER] 1.0000 Formula-1 World [EVENT] 0.9705 Oracle Cloud Infrastructure (OCI [ORG] 0.9811`
OCI recently added new services to the existing compliance program including SOC, HIPAA, and ISO, to enable our customers to solve their use cases. We also released new technical papers and guidance documents related to Object Storage, the Australian Prudential Regulation Authority (APRA), and the Central Bank of Brazil. These resources help regulated customers better understand how OCI supports their regional and industry-specific compliance requirements. Not only are we expanding our number of compliance offerings and regulatory alignments, we continue to add regions and services at a faster rate.	`OCI [ORG] 1.0000 SOC [ORG] 1.0000 HIPAA [ORG] 1.0000 ISO [ORG] 1.0000 Australian Prudential Regulation Authority [ORG] 1.0000 Central Bank of Brazil [ORG] 0.9998 OCI [ORG] 1.0000`

Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.

Red Bull Racing Honda [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
Formula-1 World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811

OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.

OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Australian Prudential Regulation Authority [ORG] 1.0000
Central Bank of Brazil [ORG] 0.9998
OCI [ORG] 1.0000

最初の例のJSONは次のとおりです:

サンプル・リクエスト

POST https://<region-url>/20210101/actions/batchDetectLanguageEntities

APIリクエスト形式:

"{
    "documents": [
       

{             "key": "doc1",             "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"

レスポンスJSON:

{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

制約

場合によっては、エンティティは予期したとおりに分離または結合されません。
NERは、文のコンテキストを使用してエンティティを識別します。処理対象のテキストにコンテキストが存在しない場合は、予想どおりにエンティティが抽出されない可能性があります。
形式(構造やセマンティクス)が正しくないテキストではパフォーマンスが低下することがあります。
年齢は個別のエンティティではないため、年齢に関する機関は日付エンティティとして識別される場合があります。

Oracle Cloud Infrastructureドキュメント

名前付きエンティティの認識

入力テキストでサポートされる言語

ユース・ケース

サポートされているエンティティ

例

制約