Riconoscimento vocale automatico

Il riconoscimento vocale automatico (spesso chiamato erroneamente riconoscimento vocale ) è un computer tecnico che analizza la voce umana catturata da un microfono per trascriverla sotto forma di un testo leggibile dalle macchine .

Il riconoscimento vocale, così come la sintesi vocale , l'identificazione del parlante o la verifica del parlante, sono alcune delle tecniche di elaborazione del parlato . Queste tecniche consentono in particolare di realizzare interfacce uomo-macchina (HMI) in cui parte dell'interazione avviene tramite la voce: “ interfacce vocali”.

Tra le tante applicazioni, possiamo citare le applicazioni di dettatura vocale su un computer dove la difficoltà sta nella dimensione del vocabolario e la lunghezza delle frasi, ma anche le applicazioni telefoniche di tipo server vocale interattivo , dove la difficoltà sta più nel necessità di riconoscere qualsiasi voce in condizioni acustiche variabili e spesso rumorose (telefoni cellulari in luoghi pubblici).

In Speech and Human-Machine Dialogue, W.Minker e S. Bennacef spiegano che il riconoscimento vocale automatico è un'area complessa, perché c'è un'importante differenza tra il linguaggio formale , che è compreso e usato dalle macchine, e il linguaggio naturale , che gli esseri umani usano . Il linguaggio formale è strutturato da rigide regole sintattiche e senza ambiguità. Al contrario, in linguaggio naturale, parole o frasi possono avere diversi significati a seconda dell'intonazione di chi parla o del contesto, per esempio.

Campo di ricerca

Il riconoscimento vocale può essere collegato a molte aree della scienza: elaborazione automatica del linguaggio , linguistica , teoria dell'informazione , elaborazione del segnale , reti neurali , intelligenza artificiale , ecc.

Storico

I lavori per il riconoscimento vocale dei primi del XX ° secolo. Il primo sistema che può essere considerato come riconoscimento vocale risale al 1952.

Questo sistema elettronico sviluppato da Davis, Biddulph e Balashek presso i laboratori Bell Labs era essenzialmente composto da relè e le sue prestazioni erano limitate al riconoscimento di singole cifre (vedi riferimento). La ricerca è poi aumentata notevolmente durante gli anni '70 con il lavoro di Jelinek presso l' IBM (1972-1993). La società Threshold Technologies è stata la prima a commercializzare nel 1972 un sistema di riconoscimento con una capacità di 32 parole, il VIP100 . Oggi, il riconoscimento vocale è un campo in rapida crescita grazie all'aumento dei sistemi di bordo . Rapida evoluzione:

1952: riconoscimento delle 10 cifre da parte di un dispositivo elettronico cablato.

1960: uso di metodi numerici.

1965: riconoscimento dei fonemi nel parlato continuo.

1968: riconoscimento di parole isolate da sistemi installati su computer mainframe (fino a 500 parole).

1970: Leonard E. Baum sviluppa il modello Markov nascosto, ampiamente utilizzato nel riconoscimento vocale.

1971: Lancio del progetto ARPA negli Stati Uniti ($ 15 milioni) per testare la fattibilità della comprensione automatica continua del parlato in condizioni ragionevoli.

1972: primo dispositivo di riconoscimento delle parole sul mercato.

1978: commercializzazione di un sistema di riconoscimento a microprocessore su circuito stampato.

1983: prima mondiale del comando vocale a bordo di un caccia in Francia.

1985: commercializzazione dei primi sistemi di riconoscimento di diverse migliaia di parole.

1986: lancio del progetto telefonico giapponese ATR con traduzione automatica in tempo reale.

1993: progetto Esprit SUNDIAL.

1997: La società Dragon lancia " NaturallySpeaking ", il primo software di dettatura vocale.

2008: Google lancia un'applicazione di ricerca su Internet che implementa una funzione di riconoscimento vocale

2011: Apple offre l'applicazione Siri sui suoi telefoni.

2017: Microsoft annuncia di eguagliare le prestazioni del riconoscimento vocale umano.

Principi di base

Passi

Una frase registrata e digitalizzata viene assegnata al programma RAP (Automatic Speech Recognition). Nel formalismo RAP ( ASR in inglese), la ripartizione funzionale è la seguente:

L'elaborazione acustica ( front-end in inglese) consente principalmente di estrarre dal segnale vocale un'immagine acustica compatta sotto forma di vettori acustici corrispondenti a sezioni da 20 a 30 ms di segnale con un passo di 10 ms (tecnica del windowing di Hamming ) . Il segnale è digitalizzato e parametrizzato da una tecnica di analisi in frequenza che utilizza la trasformata di Fourier (ad esempio MFCC, Mel-Frequency Cepstral Coefficients).

L' apprendimento automatico invia un'associazione tra i segmenti elementari del discorso e gli elementi lessicali. Questa associazione richiede la modellazione statistica, tra gli altri, da modelli di Markov nascosti (HMM, Hidden Markov Models) e / o da reti neurali artificiali (ANN, Artificial Neural Networks).

Decodificare concatenando i modelli elementari appresi in precedenza ricostituisce il discorso più probabile. Si tratta quindi di un pattern matching temporale, spesso eseguito dall'algoritmo di time warping dinamico (DTW in inglese).

Materiale tecnico

La produzione di documentari in un sistema GDD parte da una registrazione vocale ( dettatura digitale ). Si tratta di registrare e ripristinare la voce su supporto digitale. La registrazione può essere effettuata attraverso diversi canali di registrazione: microfoni , dittafoni , smartphone ...

La restituzione, per digitazione in segreteria o verifica, viene effettuata utilizzando altoparlanti o cuffie .

I modelli

Tale sistema si basa su tre modelli principali:

modello linguistico: questo modello fornisce la probabilità di ogni sequenza di parole nella lingua di destinazione; $P (W)$ $W$
modello di pronuncia: questo modello fornisce, per ogni sequenza di parole , le possibili pronunce con le loro probabilità ; $W$ $H$ $P (H | W)$
modello acustico-fonetico: questo modello stima la probabilità della sequenza osservata di vettori acustici data una possibile pronuncia di una data sequenza di parole. $P (X | H)$ $X$ $H$

La combinazione di questi tre modelli consente di calcolare la probabilità di qualsiasi sequenza di parole data un segnale vocale osservato. Il riconoscimento vocale consiste nel trovare la sequenza di parole che ha la più alta probabilità. Formalmente la soluzione al problema è il risultato di parole che massimizzano la seguente espressione matematica . $W$ $\ textstyle P (W) \ sum _ {H} P (H | W) P (X | H)$

Per calibrare questi modelli per un'applicazione, è necessario utilizzare una grande quantità di corpus annotati. Il corpus deve corrispondere alle condizioni di utilizzo del sistema mirato.

Classificazione

I sistemi di riconoscimento vocale possono essere classificati lungo diversi assi:

il tipo di segnale: segnale rumoroso o segnale non rumoroso (es: microfono auricolare con riduzione del rumore), segnale telefonico (fisso o cellulare) o banda larga, segnale compresso o non compresso, ecc.
il tipo di modello acustico: modello a un oratore ( es: dettatura vocale), modello a più altoparlanti ( indipendente dal parlante in inglese);
la natura delle registrazioni: dettatura del testo, comando vocale, dialogo uomo-macchina, messaggio telefonico, radio, TV, podcast, ecc. ;
linguaggio.

La dimensione del vocabolario e la complessità del modello linguistico sono direttamente collegate alla lingua e alla natura dei dati da elaborare, da poche dozzine di parole per i comandi vocali a poche centinaia di migliaia di parole per coprire una lingua come il francese o Tedesco.

Prestazione

Le prestazioni grezze di un motore di riconoscimento vocale sono spesso misurate in tassi di errore delle parole ( tasso di errore delle parole ) . Al contrario, possiamo valutare la percentuale di successo. Questa velocità varia notevolmente a seconda della natura dei dati da trascrivere, del parlante e delle condizioni acustiche. Dipende poco dalla lingua. Ecco la sua definizione formale:

${\ mathit {WER}} = {\ frac {S + E + I} {N}}$

o :

$S$ è il numero di sostituzioni;
$E$ è il numero di elisioni;
$io$ è il numero di inserimenti;
$NON$ è il numero di parole nella trascrizione di riferimento (trascrizione esatta).

Di seguito sono riportati alcuni risultati medi per il tasso di errore:

testi letti (dettatura vocale, sistema con un solo altoparlante): 5%
giornali radiofonici e televisivi: 10%
conversazioni telefoniche informali: 40%

Menzioni letterarie

Il riconoscimento vocale è evocato in The First Circle dallo scrittore dissidente sovietico Alexander Solzhenitsyn , come strumento di repressione al servizio di Stalin .

Il riconoscimento vocale è menzionato anche in un romanzo poliziesco:

“Niente a che vedere con i nostri cari vecchi rapporti di ritorno a casa strimpellati al computer con un dito gelido da un amico che ha esitato a lungo tra la carriera di poliziotto e quella di maniscalco. Negli Yankees si parla e si registra, pulito e in ordine, senza cancellazione, ripetizione o scorrettezza dei termini. Qualsiasi mascalzone, avendo imparato a leggere su una slot machine, ti tormenta con confessioni rispetto alle quali passerebbe la Confessione di un bambino del secolo per le istruzioni per l'uso di una polvere insetticida tradotta dal romancio.

Per pilotare questa cosa, non c'era bisogno di lasciare Princeton. Tutto ciò che l'operatore doveva masturbarsi, a parte il suo aspetto piuttosto cespuglioso, era ripetere una parola pronunciata male, e di nuovo il dispositivo suggeriva un branco di sinonimi in accordo con il significato della frase. Vedendo la macchina in funzione, pensai a tutti i miei colleghi tremare per il copricapo di cui avrebbe reso intelligibile la prosa. "

- Frédéric Dard alias San Antonio , Sand in Vaseline

Si parla del riconoscimento vocale come unica interfaccia tra uomo e macchina nella trilogia delle profezie di Pierre Bordage . Infatti, in questa trilogia, viene presentato un supercomputer , il DNA PC .

Software di riconoscimento vocale

I moderni sistemi di riconoscimento vocale utilizzano modelli linguistici che possono richiedere gigabyte di memoria rendendoli poco pratici, soprattutto sui dispositivi mobili. Per questo motivo, la maggior parte dei moderni sistemi di riconoscimento vocale sono effettivamente ospitati su server remoti e richiedono una connessione Internet e l'invio di contenuti vocali attraverso la rete.

Cortana ( Microsoft )
Siri ( Apple )
Google Now ( Google )
Alexa ( Amazon )
Vocapia Research (suite VoxSigma)
Vocon Hybrid e Dragon (dettati rispettivamente dalla grammatica e dalla dettatura libera da Nuance Communications ).

Mozilla ha avviato un progetto comunitario, Common Voice , per raccogliere campioni vocali in un database gratuito, per addestrare motori di riconoscimento vocale non proprietari.

Note e riferimenti

(in) Leonard E. Baum, " A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains " , The Annals of Mathematical Statistics ,1970, p. 164 - 171.
Peckham, J. (1993). Una nuova generazione di sistemi di dialogo parlato: risultati e lezioni dal progetto SUNDIAL. Alla terza conferenza europea sulla comunicazione vocale e la tecnologia.
(in) " Apple lancia iPhone 4S iOS5 iCloud " su apple.com ,4 ottobre 2011(visitato il 21 agosto 2017 ) .
" Microsoft annuncia notevoli progressi nel riconoscimento vocale " , su Actuia.com ,21 agosto 2017(visitato il 21 agosto 2017 ) .
San Antonio , Sabbia in vaselina , Parigi, Fiume Nero ,Settembre 1998, 209 p. ( ISBN 2-265-06530-7 ) , p. 40-41.

Vedi anche

Bibliografia

Elaborazione del parlato , di René Boite, Hervé Bourlard, Thierry Dutoit, Joel Hancq e Henri Leich, Presses polytechniques et universitaire romandes, 2000.
Riconoscimento vocale: elaborazione automatica della lingua parlata 2. Hermes Science - Lavoisier (Trattato IC2, Computing and information systems), J. Mariani (Ed.), 2002
Jean-Paul Haton , Riconoscimento vocale automatico: dal segnale alla sua interpretazione , Dunod Paris, 2006
Minker Wolfgang, Bennacef Samir (2000). Discorso e dialogo uomo-macchina , Edizioni Eyrolles e CNRS EDITIONS, Marsat, 212 pagine.

link esterno

(en) [PDF] Riconoscimento automatico delle cifre parlate , articolo storico sul primo sistema di riconoscimento vocale, 1952
(it) "Rest in Peas: The Unrecognized Death of Speech Recognition" ,Maggio 2010
(en) Glossario sul riconoscimento vocale
identificazione vocale nella scienza forense