Entità denominata

Questo articolo è una bozza riguardante la linguistica .

Puoi condividere la tua conoscenza migliorandola ( come? ) secondo le raccomandazioni dei progetti corrispondenti .

Un soggetto di nome è un referenziale linguistica espressione , spesso associata a nomi propri e descrizioni definite .

Questo oggetto del linguaggio è emerso con la necessità di applicazioni per il recupero delle informazioni , in particolare durante le campagne MUC finanziate dalla DARPA negli anni '90 negli Stati Uniti. In questo contesto, le entità citate possono essere considerate aventi una finalità essenzialmente applicativa. Possono essere elaborati con vari gradi di finezza (rilevamento, estrazione, riconoscimento, collegamento) e generalmente richiedono risorse significative (es. banche dati lessicali). Essi sono oggetto di un linguaggio naturale elaborazione automatica compito chiamato dal nome riconoscimento dell'entità .

Apprensione storica

Nel contesto del lavoro di recupero delle informazioni, la capacità di una macchina di comprendere e indicizzare correttamente un documento è diventata una questione importante. Tra gli oggetti del linguaggio particolarmente richiesti ci sono:

Trattamento e difficoltà

L'estrazione di entità denominate è ormai diventata una parte essenziale di un gran numero di processi che coinvolgono l'elaborazione automatica del linguaggio naturale o l' estrazione di testo . Ciò richiede generalmente l'utilizzo di grandi banche dati lessicali, quanto più esaustive possibile, delle entità a cui fare riferimento, insieme a metodi contestuali per determinare quale entità è menzionata in un dato testo.

Le entità nominate sono soggette, tra l'altro, a tre fenomeni che ne complicano il riconoscimento e il legame: sinonimia (possono esserci molte espressioni per una data entità), omonimia (una data espressione linguistica può essere associata a entità distinte a seconda del contesto) e metonimia (un'espressione linguistica, in un dato contesto, può essere associata ad un'entità diversa da quella che solitamente designa).

Inoltre, le entità nominate sono considerate una classe aperta  : è impossibile farne un elenco completo e nuove entità (o nomi di entità) vengono continuamente create. La loro elaborazione è quindi tanto più difficile in quanto si cerca di riconoscere entità rare o nuove (quindi assenti dalla base lessicale). Questo spiega perché gli esempi didattici non possono spiegare la difficoltà del compito quando si esce dal dominio generale.

Gli ultimi sviluppi nell'elaborazione delle entità nominate riguardano il collegamento delle stesse a un repository (ad esempio DBpedia o Wikidata ): non si tratta solo di determinare quale sia la categoria di un'espressione linguistica, ma anche quale individuo da una base di conoscenza è menzionato (che risolve il caso particolare degli omonimi).

Note e riferimenti

  1. Michel Charolles , Il riferimento e le espressioni referenziali in francese , Ophrys,1 ° gennaio 2002, 258  pag. ( ISBN  978-2-7080-1014-7 , leggi online )
  2. (in) Ralph Grishman e Beth Sundheim, "  Progettazione della valutazione MUC-6  " , Atti di Tipster'96 ,1996
  3. Maud Ehrmann, Entità nominate, dalla linguistica alla PNL: statuto teorico e metodi di disambiguazione (tesi di dottorato in Linguistica teorica, descrittiva e automatica),2008( leggi in linea Accesso libero )
  4. Damien Nouvel, Maud Ehrmann e Sophie Rosset, Entità nominate per l'elaborazione automatica del linguaggio ,2015, 168  pag. ( ISBN  978-1-78405-104-4 , leggi online )
  5. Damien Nouvel, Riconoscimento di entità nominate mediante esplorazione di regole di annotazione ,2012