Elaborazione automatica del linguaggio

Elaborazione automatica del linguaggio naturale
sottoclasse di Intelligenza artificiale , informatica , linguistica computazionale , industria , disciplina accademica
oggetti Lemmatizzazione
Etichettatura grammaticale
analisi della sintassi
disambiguazione del confine della frase ( en )
rootizzazione
estrazione della terminologia
lessicale semantica ( en )
traduzione automatica
riconoscimento di entità denominate
generazione automatica di testo
riconoscimento ottico dei caratteri
sistemi di domanda-risposta
implicazione testuale ( en )
estrazione di relazioni ( en )
opinione Mining
segmentazione del testo ( en ) )
disambiguazione lessicale
Riepilogo testo automatico
coreference
analisi vocale
Riconoscimento
vocale automatico segmentazione vocale ( en )
sintesi vocale
Word embedding
scomposizione ( d )

L' elaborazione del linguaggio naturale (Rep. PNL ), o elaborazione automatica del linguaggio naturale , o elaborazione del linguaggio (Rep. TAL ) è un campo multidisciplinare che coinvolge il linguaggio , il computer e l'intelligenza artificiale , che mira a creare strumenti di elaborazione del linguaggio naturale per varie applicazioni. Non va confuso con la linguistica computazionale , che mira a comprendere le lingue per mezzo di strumenti informatici.

TALN è uscito dai laboratori di ricerca per essere progressivamente implementato in applicazioni informatiche che richiedono l'integrazione del linguaggio umano nella macchina. Quindi la PNL è talvolta chiamata ingegneria linguistica . In Francia, Natural Language Processing ha la sua rivista, Automatic Language Processing , pubblicata dall'Associazione per l' elaborazione automatica del linguaggio (ATALA).

Storia

anni '50-'60

Il primo lavoro nell'elaborazione del linguaggio naturale iniziò negli anni '50, principalmente negli Stati Uniti dove il contesto politico, legato alla Guerra Fredda , era favorevole allo sviluppo del tema della traduzione automatica .

Le prime applicazioni informatiche erano legate all'elaborazione automatica delle conversazioni. Nel 1950, nel suo articolo fondatore dell'intelligenza artificiale, "  Macchine informatiche e intelligenza  ", Alan Turing presentò un metodo di valutazione che in seguito sarebbe stato chiamato "  Test di Turing  " o "criterio di Turing". Questo test misura il grado di intelligenza di una macchina, in base alla capacità di un programma conversazionale di impersonare un essere umano: in uno scambio di messaggi scritti, un soggetto umano deve determinare se il suo interlocutore è una macchina o meno. La base utilizzata è tuttavia fragile per valutare l'intelligenza artificiale, perché l'impressione di un singolo utente dipende da troppi fattori legati all'ambiente ambientale per essere stabiliti come regola.

Nel 1954, l' esperimento Georgetown-IBM , condotto congiuntamente dalla Georgetown University e dalla società IBM , prevedeva la traduzione completamente automatica, in inglese, di oltre sessanta frasi russe romanizzate relative ai campi della politica, del diritto, della matematica e delle scienze. Gli autori affermano che entro tre-cinque anni la traduzione automatica non sarà più un problema. Sembra, tuttavia, che le espressioni in russo siano state scelte con cura e che molte delle operazioni eseguite per la dimostrazione siano state adattate a particolari parole e frasi. Inoltre, non esiste un'analisi relazionale o sintattica per identificare la struttura delle frasi. Il metodo utilizzato è essenzialmente un metodo lessicografico basato su un dizionario dove una data parola è legata a regole e procedure specifiche.

I concetti introdotti da Turing permisero a Joseph Weizenbaum di sviluppare, dal 1964 al 1966, il primo automa conversazionale in grado di ingannare un essere umano sulla sua natura. Simulando uno psicoterapeuta rogersiano , l'automa, di nome ELIZA , sebbene non utilizzi quasi nessuna informazione sul pensiero o sull'emozione umana, a volte riesce a stabilire un'interazione sorprendentemente simile all'interazione umana. Quindi, quando il “paziente” supera le deboli capacità della base di conoscenza, ELIZA può fornire una risposta generica, come “Perché dici che hai mal di testa? »In risposta a« Ho mal di testa ».

Alla fine degli anni '60, Terry Winograd , un ricercatore del MIT, ha sviluppato un programma in linguaggio naturale chiamato SHRDLU (pronunciato "chreudeul"), che consente all'utente di conversare con un computer per gestire un "mondo di cubi da costruzione" ( un mondo di blocchi ) visualizzato su uno dei primi schermi. È il primo programma in grado di comprendere ed eseguire ordini complessi in linguaggio naturale. Ma le uniche operazioni che può fare sono prendere cubi, spostarli, raccoglierli o disperderli. Non sarà mai in grado di capire tutto ciò che gli umani possono fare con gli oggetti fisici.

I progressi reali sono quindi deludenti. Il rapporto ALPAC  (in) 1966 rileva che dieci anni di obiettivi di ricerca non sono stati raggiunti. Questa consapevolezza dell'estrema complessità dei linguaggi ha ridotto notevolmente l'ambizione del lavoro di ricerca.

1970-1980 1970

Negli anni '70 molti programmatori iniziarono a scrivere "ontologie concettuali", il cui scopo era strutturare le informazioni in dati comprensibili al computer. È il caso di MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politics (Carbonell, 1979), Plot Units ( Lehnert 1981).

Anni 1990-2000

Dal 2000

Nel gennaio 2018, i modelli di intelligenza artificiale sviluppati da Microsoft e Alibaba a loro volta hanno battuto gli umani in un test di lettura e comprensione della Stanford University . L'elaborazione del linguaggio naturale imita la comprensione umana di parole e frasi e ora consente ai modelli di apprendimento automatico di elaborare grandi quantità di informazioni prima di fornire risposte precise alle domande poste loro.

Nel novembre 2018, Google lancia BERT , un modello linguistico.

Nel maggio 2020, OpenAI , una società fondata da Elon Musk e Sam Altman , annuncia il lancio di GPT-3 , un 175 miliardi parametro di modello di linguaggio rilasciato come un fork di un commerciale API .

PNL statistica

Gli usi statistici dell'elaborazione del linguaggio naturale si basano su metodi stocastici , probabilistici o semplicemente statistici per risolvere alcune delle difficoltà discusse sopra, in particolare quelle che sorgono perché frasi molto lunghe sono altamente ambigue se elaborate con grammatiche realistiche, consentendo migliaia o milioni di possibili analisi. I metodi di disambiguazione spesso implicano l'uso di corpora e strumenti di formalizzazione come i modelli di Markov . La PNL statistica incorpora tutti gli approcci quantitativi all'elaborazione linguistica automatizzata, inclusi modelli, teoria dell'informazione e algebra lineare . La tecnologia per la PNL statistica deriva principalmente dall'apprendimento automatico e dal data mining , che implica l'apprendimento dai dati provenienti dall'intelligenza artificiale .

Campi di ricerca e applicazioni

Il campo dell'elaborazione automatica del linguaggio naturale copre un gran numero di discipline di ricerca che possono applicare competenze diverse come la matematica applicata o l'elaborazione dei segnali.

Sintassi

Semantica

Elaborazione del segnale (parlato e scritto)

Recupero delle informazioni

Bibliometria

La bibliometria è l'uso di pubblicazioni scientifiche di elaborazione del linguaggio naturale.

Studio bibliometrico dell'elaborazione automatica del linguaggio naturale

Il primo importante studio è stato realizzato nel 2013 , in occasione dell'anniversario dell'Associazione per la linguistica computazionale (ACL), con un workshop intitolato Rediscovering 50 Years of Discoveries in Natural Language Processing .

Nello stesso anno ha avuto luogo l'operazione Elaborazione del linguaggio naturale per l'elaborazione del linguaggio naturale (NLP4NLP), incentrata sull'applicazione di strumenti di elaborazione automatica del linguaggio naturale agli archivi dell'elaborazione automatica del linguaggio naturale dagli anni '60 ai giorni nostri. Si trattava di determinare automaticamente chi erano gli inventori dei termini tecnici che usiamo attualmente.

Un'altra area di studio è determinare qualsiasi taglia e incolla che i ricercatori di elaborazione del linguaggio naturale eseguono durante la scrittura di un articolo scientifico.

Una sintesi completa del lavoro di NLP4NLP è stata pubblicata nel 2019 in un doppio numero della rivista Frontiers in Research Metrics and Analytics al fine di descrivere quantitativamente molteplici aspetti come la proporzione di donne (rispetto agli uomini), il numero di coautori, la evoluzione delle materie di studio,  ecc. .

Vedi anche

Bibliografia

Articoli Correlati

link esterno

  • Associazione ATALA per l'elaborazione automatica del linguaggio
  • Technolangue , portale di tecnologia linguistica

Riferimenti

  1. Vedi ad esempio Ludovic Tanguy, "Elaborazione automatica del linguaggio naturale e dell'interpretazione: contributo allo sviluppo di un modello informatico di semantica interpretativa" , Informatica e linguaggio , Università di Rennes 1, 1997.
  2. Eugene Charniak, Introduzione all'intelligenza artificiale , Addison-Wesley, 1984, p. 2.
  3. Definizione di ingegneria linguistica sul sito evariste.org (1996): “L'ingegneria linguistica è l'insieme di metodi e tecniche all'intersezione tra informatica e linguistica. Ha lo scopo di implementare tutte le tecniche informatiche (spesso le più avanzate) per lo sviluppo di applicazioni con una comprensione più o meno ampia del linguaggio naturale. "
  4. Marc-Emmanuel Perrin, Le macchine progrediscono nell'apprendimento del linguaggio naturale , Mission for Science and Technology dell'Ambasciata di Francia negli Stati Uniti, 22 settembre 2017.
  5. Rubrica “Criterio di Turing”, Dizionario dell'informatica e di Internet 2001 , Micro Application, 2000, p. 232.
  6. (in) John Hutchins, Dal primo concetto alla prima dimostrazione: gli anni nascenti della traduzione automatica, 1947-1954. Una cronologia, in Traduzione automatica , 12, pp. 195-252.
  7. (in) Erwin Reifler, La soluzione MT dei problemi linguistici attraverso la lessicografia, in Atti del Simposio nazionale sulla traduzione automatica, Traduzione automatica, 12, 2-5 febbraio 1960, pp. 195-252.
  8. Marc-Emmanuel Perrin, op. cit. .
  9. Serge Boisse, Etaoin Shrdlu , su Journal d'un terrien , senza data.
  10. Villard Masako (a cura di ), “  Traduzione automatica e ricerca cognitiva  ”, Histoire Épistémologie Langage (Scienze del linguaggio e ricerca cognitiva) , vol.  Volume 11, n o  libretto 1,1989, pag.  55-84 ( DOI  10.3406/hel.1989.2290 , www.persee.fr/doc/hel_0750-8069_1989_num_11_1_2290)
  11. "  L'intelligenza artificiale di Alibaba supera gli umani nel test di lettura  " , Bloomberg.com ,15 gennaio 2018( letto online , consultato il 16 gennaio 2018 ).
  12. Toutanova, Kristina, "  BERT: Pre-formazione di trasformatori bidirezionali profondi per la comprensione del linguaggio  " , su arXiv.org ,11 ottobre 2018(consultato il 31 luglio 2020 ) .
  13. (in) Will Douglas Heaven, "  Il nuovo generatore di linguaggi di OpenAI GPT-3 è incredibilmente buono e senza cervello e completamente Call  " , MIT Technology Review ,20 luglio 2020( leggi in linea ).
  14. Christopher D. Manning, Hinrich Schütze, Fondamenti di elaborazione statistica del linguaggio naturale , MIT Press (1999), ( ISBN  978-0-262-13360-9 ) , p.  xxxi .
  15. (in) Radev Dragomir R Muthukrishnan Pradeep, Qazvinian Vahed, Jbara Abu Amjad, The ACL Anthology Corpus Network, Language Resources and Evaluation , 47, 2013, Springer, pp. 919–944.
  16. (in) Gil Francopoulo Joseph Mariani e Patrick Paroubek, "  I figli del calzolaio non si scalzeranno  " in D-Lib Magazine ,novembre 2015 (consultato il 12 giugno 2016).
  17. (in) Joseph Mariani Patrick Paroubek , Gil Francopoulo e Olivier Hamon , "  Riscoprire 15 + 2 anni di scoperte nelle risorse linguistiche e nella valutazione  " , Risorse linguistiche e valutazione , vol.  50,1 ° aprile 2016, pag.  165–220 ( ISSN  1574-020X e 1574-0218 , DOI  10.1007 / s10579-016-9352-9 , lettura online , accesso 12 giugno 2016 ).
  18. (in) Gil Francopoulo Joseph Mariani e Patrick Paroubek, "A Study of Reuse and Plagiarism in LREC papers" in Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik Bente Maegaard Joseph Mariani, Asuncion Moreno, Jan Odijk e Stelios Piperidis, Proceedings della decima conferenza internazionale sulle risorse linguistiche e la valutazione (LREC 2016) , Portorose (Slovenia), European Language Resources Association (ELRA),2016( ISBN  978-2-9517408-9-1 , leggi online ).
  19. (in) Joseph Mariani , Gil Francopoulo e Patrick Paroubek , "  The Corpus NLP4NLP (I): 50 Years of Collaboration and Publication Citation in Speech and Language Processing  " , Frontiers in Research Metrics and Analytics ,2019( leggi in linea )
  20. (in) Joseph Mariani , Gil Francopoulo Patrick Paroubek e Frederic Vernier , "  The Corpus NLP4NLP (II): 50 Years of Research in Speech and Language Processing  " , Frontiers in Research Metrics and Analytics ,2019( leggi in linea ).