sottoclasse di | Intelligenza artificiale , informatica , linguistica computazionale , industria , disciplina accademica |
---|---|
oggetti |
Lemmatizzazione Etichettatura grammaticale analisi della sintassi disambiguazione del confine della frase ( en ) rootizzazione estrazione della terminologia lessicale semantica ( en ) traduzione automatica riconoscimento di entità denominate generazione automatica di testo riconoscimento ottico dei caratteri sistemi di domanda-risposta implicazione testuale ( en ) estrazione di relazioni ( en ) opinione Mining segmentazione del testo ( en ) ) disambiguazione lessicale Riepilogo testo automatico coreference analisi vocale Riconoscimento vocale automatico segmentazione vocale ( en ) sintesi vocale Word embedding scomposizione ( d ) |
L' elaborazione del linguaggio naturale (Rep. PNL ), o elaborazione automatica del linguaggio naturale , o elaborazione del linguaggio (Rep. TAL ) è un campo multidisciplinare che coinvolge il linguaggio , il computer e l'intelligenza artificiale , che mira a creare strumenti di elaborazione del linguaggio naturale per varie applicazioni. Non va confuso con la linguistica computazionale , che mira a comprendere le lingue per mezzo di strumenti informatici.
TALN è uscito dai laboratori di ricerca per essere progressivamente implementato in applicazioni informatiche che richiedono l'integrazione del linguaggio umano nella macchina. Quindi la PNL è talvolta chiamata ingegneria linguistica . In Francia, Natural Language Processing ha la sua rivista, Automatic Language Processing , pubblicata dall'Associazione per l' elaborazione automatica del linguaggio (ATALA).
Il primo lavoro nell'elaborazione del linguaggio naturale iniziò negli anni '50, principalmente negli Stati Uniti dove il contesto politico, legato alla Guerra Fredda , era favorevole allo sviluppo del tema della traduzione automatica .
Le prime applicazioni informatiche erano legate all'elaborazione automatica delle conversazioni. Nel 1950, nel suo articolo fondatore dell'intelligenza artificiale, " Macchine informatiche e intelligenza ", Alan Turing presentò un metodo di valutazione che in seguito sarebbe stato chiamato " Test di Turing " o "criterio di Turing". Questo test misura il grado di intelligenza di una macchina, in base alla capacità di un programma conversazionale di impersonare un essere umano: in uno scambio di messaggi scritti, un soggetto umano deve determinare se il suo interlocutore è una macchina o meno. La base utilizzata è tuttavia fragile per valutare l'intelligenza artificiale, perché l'impressione di un singolo utente dipende da troppi fattori legati all'ambiente ambientale per essere stabiliti come regola.
Nel 1954, l' esperimento Georgetown-IBM , condotto congiuntamente dalla Georgetown University e dalla società IBM , prevedeva la traduzione completamente automatica, in inglese, di oltre sessanta frasi russe romanizzate relative ai campi della politica, del diritto, della matematica e delle scienze. Gli autori affermano che entro tre-cinque anni la traduzione automatica non sarà più un problema. Sembra, tuttavia, che le espressioni in russo siano state scelte con cura e che molte delle operazioni eseguite per la dimostrazione siano state adattate a particolari parole e frasi. Inoltre, non esiste un'analisi relazionale o sintattica per identificare la struttura delle frasi. Il metodo utilizzato è essenzialmente un metodo lessicografico basato su un dizionario dove una data parola è legata a regole e procedure specifiche.
I concetti introdotti da Turing permisero a Joseph Weizenbaum di sviluppare, dal 1964 al 1966, il primo automa conversazionale in grado di ingannare un essere umano sulla sua natura. Simulando uno psicoterapeuta rogersiano , l'automa, di nome ELIZA , sebbene non utilizzi quasi nessuna informazione sul pensiero o sull'emozione umana, a volte riesce a stabilire un'interazione sorprendentemente simile all'interazione umana. Quindi, quando il “paziente” supera le deboli capacità della base di conoscenza, ELIZA può fornire una risposta generica, come “Perché dici che hai mal di testa? »In risposta a« Ho mal di testa ».
Alla fine degli anni '60, Terry Winograd , un ricercatore del MIT, ha sviluppato un programma in linguaggio naturale chiamato SHRDLU (pronunciato "chreudeul"), che consente all'utente di conversare con un computer per gestire un "mondo di cubi da costruzione" ( un mondo di blocchi ) visualizzato su uno dei primi schermi. È il primo programma in grado di comprendere ed eseguire ordini complessi in linguaggio naturale. Ma le uniche operazioni che può fare sono prendere cubi, spostarli, raccoglierli o disperderli. Non sarà mai in grado di capire tutto ciò che gli umani possono fare con gli oggetti fisici.
I progressi reali sono quindi deludenti. Il rapporto ALPAC (in) 1966 rileva che dieci anni di obiettivi di ricerca non sono stati raggiunti. Questa consapevolezza dell'estrema complessità dei linguaggi ha ridotto notevolmente l'ambizione del lavoro di ricerca.
Negli anni '70 molti programmatori iniziarono a scrivere "ontologie concettuali", il cui scopo era strutturare le informazioni in dati comprensibili al computer. È il caso di MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politics (Carbonell, 1979), Plot Units ( Lehnert 1981).
Nel gennaio 2018, i modelli di intelligenza artificiale sviluppati da Microsoft e Alibaba a loro volta hanno battuto gli umani in un test di lettura e comprensione della Stanford University . L'elaborazione del linguaggio naturale imita la comprensione umana di parole e frasi e ora consente ai modelli di apprendimento automatico di elaborare grandi quantità di informazioni prima di fornire risposte precise alle domande poste loro.
Nel novembre 2018, Google lancia BERT , un modello linguistico.
Nel maggio 2020, OpenAI , una società fondata da Elon Musk e Sam Altman , annuncia il lancio di GPT-3 , un 175 miliardi parametro di modello di linguaggio rilasciato come un fork di un commerciale API .
Gli usi statistici dell'elaborazione del linguaggio naturale si basano su metodi stocastici , probabilistici o semplicemente statistici per risolvere alcune delle difficoltà discusse sopra, in particolare quelle che sorgono perché frasi molto lunghe sono altamente ambigue se elaborate con grammatiche realistiche, consentendo migliaia o milioni di possibili analisi. I metodi di disambiguazione spesso implicano l'uso di corpora e strumenti di formalizzazione come i modelli di Markov . La PNL statistica incorpora tutti gli approcci quantitativi all'elaborazione linguistica automatizzata, inclusi modelli, teoria dell'informazione e algebra lineare . La tecnologia per la PNL statistica deriva principalmente dall'apprendimento automatico e dal data mining , che implica l'apprendimento dai dati provenienti dall'intelligenza artificiale .
Il campo dell'elaborazione automatica del linguaggio naturale copre un gran numero di discipline di ricerca che possono applicare competenze diverse come la matematica applicata o l'elaborazione dei segnali.
La bibliometria è l'uso di pubblicazioni scientifiche di elaborazione del linguaggio naturale.
Studio bibliometrico dell'elaborazione automatica del linguaggio naturaleIl primo importante studio è stato realizzato nel 2013 , in occasione dell'anniversario dell'Associazione per la linguistica computazionale (ACL), con un workshop intitolato Rediscovering 50 Years of Discoveries in Natural Language Processing .
Nello stesso anno ha avuto luogo l'operazione Elaborazione del linguaggio naturale per l'elaborazione del linguaggio naturale (NLP4NLP), incentrata sull'applicazione di strumenti di elaborazione automatica del linguaggio naturale agli archivi dell'elaborazione automatica del linguaggio naturale dagli anni '60 ai giorni nostri. Si trattava di determinare automaticamente chi erano gli inventori dei termini tecnici che usiamo attualmente.
Un'altra area di studio è determinare qualsiasi taglia e incolla che i ricercatori di elaborazione del linguaggio naturale eseguono durante la scrittura di un articolo scientifico.
Una sintesi completa del lavoro di NLP4NLP è stata pubblicata nel 2019 in un doppio numero della rivista Frontiers in Research Metrics and Analytics al fine di descrivere quantitativamente molteplici aspetti come la proporzione di donne (rispetto agli uomini), il numero di coautori, la evoluzione delle materie di studio, ecc. .