名前付きエンティティの認識

名前付きエンティティの認識(NER)では、テキスト内の名前付きエンティティを検出します。

NERモデルは、自然言語処理を使用して様々な名前付きエンティティを探します。抽出されたエンティティごとに、NERは、抽出されたエンティティの場所(オフセットと長さ)および信頼度スコア(値0から1)を返します。

入力テキストでサポートされる言語

  • 英語
  • スペイン語

ユース・ケース

次のシナリオではNERエンドポイントを効果的に使用できます:

ニュース・プロバイダのコンテンツの分類

ニュース記事のコンテンツを分類してカテゴリを判別するのは難しい場合があります。NERモデルは、記事を自動的にスキャンして、記事に含まれる主要な人物、組織および場所を識別できます。抽出されたエンティティは、タグとして関連する記事に保存できます。各記事の関連タグを認識することで、記事を定義済階層に自動的に分類でき、コンテンツ検出に役立ちます。

カスタマ・サポート

顧客の苦情やフィードバック、製品の仕様、部門の詳細情報または会社の支部の詳細情報において関連エンティティを認識することが、フィードバックを適切に分類するために役立ちます。その後、識別された製品の担当者にエンティティを転送できます。

同様に、フィードバック・ツイートが行われると、それらすべてをその位置や言及された製品に基づいて分類できます。

有効な検索アルゴリズム

NERを使用すると、問合せについてオンラインで数百万もの記事やWebサイトを検索するかわりに、エンティティを抽出してから問合せに対して検索できます。記事に対して実行すると、各記事に関連付けられたすべての関連エンティティが抽出され、別々に格納されます。このように分離することで、検索プロセスが大幅に高速化されます。検索語は各記事の少数のエンティティのリストのみと照合されるため、検索を迅速かつ効率的に行うことができます。

これは、数百万件の研究論文、ウィキペディア記事、ブログ、記事などのコンテンツを検索するために使用できます。

推奨コンテンツ

特定の記事からエンティティを抽出し、含まれているエンティティの類似性が最も高い他の記事を推奨することが、NERでは可能です。たとえば、これを使用して、メディア業界クライアントのために推奨コンテンツを効率よく開発することができます。これによって、履歴コンテンツすなわち以前のアクティビティに関連付けられたエンティティの抽出が可能になります。NERは、これらを他の未見コンテンツに割り当てられたラベルと比較して、関連するエンティティをフィルタ処理します。

就職希望者の自動集計

NERモデルを使用すると、多数のアプリケーションによって就職希望者を絞り込むために必要な作業を簡素化することで、就職希望者の評価を円滑に進めることができます。採用担当者は、場所、学位、雇用主、スキル、肩書、資格、特許など、識別されたエンティティに基づいてフィルタ処理や分類を行うことができます。

サポートされているエンティティ

次の表で、NERが抽出できる様々なエンティティについて説明します。エンティティのタイプおよびサブタイプは、コールするAPI (detectDominantLanguageEntitiesまたはbatchDetectDominantLanguageEntities)によって異なります。

ノート

下位互換性を維持するため、サブタイプの概念を導入した際にdetectDominantLanguageEntitiesは変更されませんでした。batchDetectDominantLanguageEntitiesエンドポイントを使用することをお薦めします。このサービスではタイプとサブタイプが使用されるためです。バッチ処理APIを導入するためにisPiiプロパティは削除されました。これは、次の表に示すように、サポートされているエンティティ・タイプを使用して計算することができます。

エンティティ(完全名) エンティティ・タイプ(予測内) エンティティ・サブタイプ(予測内) 単一レコードAPI /バッチAPI (空の場合、両方のAPIで同じです) PII 説明
DATE DATE 単一レコード

X

絶対的または相対的な、日付、期間および日付範囲。

例:

6月10日

8月の第3金曜日

3月の第1週

DATETIME DATE バッチ
EMAIL EMAIL
EVENT EVENT お問い合わせ 名前が付けられているハリケーンやスポーツ・イベントなど。
FACILITY FACILITY 単一レコード お問い合わせ 建物、空港、高速道路、橋など。
LOCATION FACILITY バッチ
GEOPOLITICAL ENTITY GPE 単一レコード お問い合わせ 国、市、都道府県。
LOCATION GPE バッチ
IP ADDRESS IPADDRESS IPv4および IPv6標準に基づくIPアドレス。
LANGUAGE LANGUAGE お問い合わせ 指定されている言語。
LOCATION LOCATION お問い合わせ GPE以外の場所、山脈、水域。
CURRENCY MONEY 単一レコード

X

単位を含む金銭価値。
QUANTITY CURRENCY バッチ
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP お問い合わせ 国家、宗教または政治団体。
ORGANIZATION ORG お問い合わせ 会社、代理店、機関など。
PERCENTAGE PERCENT 単一レコード お問い合わせ 割合
QUANTITY PERCENTAGE バッチ
PERSON PERSON 人(架空の人物を含む)。
PHONENUMBER PHONE_NUMBER

サポートされている電話番号:

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT お問い合わせ 車両、工具、食品など(サービス以外)。
NUMBER QUANTITY 単一レコード お問い合わせ 測定(重量または距離)。
QUANTITY NUMBER バッチ X
TIME TIME 単一レコード

お問い合わせ

24時間未満の時間、期間など。
DATETIME TIME バッチ
URL URL URL

入力テキスト エンティティおよびスコア
Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Red Bull Racing Honda [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
Formula-1 World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Australian Prudential Regulation Authority [ORG] 1.0000
Central Bank of Brazil [ORG] 0.9998
OCI [ORG] 1.0000

最初の例のJSONは次のとおりです:

サンプル・リクエスト
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
APIリクエスト形式:
"{
    "documents": [
       

{             "key": "doc1",             "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
レスポンスJSON:
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

制約

  • 場合によっては、エンティティは予期したとおりに分離または結合されません。

  • NERは、文のコンテキストを使用してエンティティを識別します。処理対象のテキストにコンテキストが存在しない場合は、予想どおりにエンティティが抽出されない可能性があります。

  • 形式(構造やセマンティクス)が正しくないテキストではパフォーマンスが低下することがあります。

  • 年齢は個別のエンティティではないため、年齢に関する機関は日付エンティティとして識別される場合があります。