Riconoscimento vocale automatico

Il riconoscimento vocale automatico (spesso chiamato erroneamente riconoscimento vocale ) è un computer tecnico che analizza la voce umana catturata da un microfono per trascriverla sotto forma di un testo leggibile dalle macchine .

Il riconoscimento vocale, così come la sintesi vocale , l'identificazione del parlante o la verifica del parlante, sono alcune delle tecniche di elaborazione del parlato . Queste tecniche consentono in particolare di realizzare interfacce uomo-macchina (HMI) in cui parte dell'interazione avviene tramite la voce: “  interfacce vocali”.

Tra le tante applicazioni, possiamo citare le applicazioni di dettatura vocale su un computer dove la difficoltà sta nella dimensione del vocabolario e la lunghezza delle frasi, ma anche le applicazioni telefoniche di tipo server vocale interattivo , dove la difficoltà sta più nel necessità di riconoscere qualsiasi voce in condizioni acustiche variabili e spesso rumorose (telefoni cellulari in luoghi pubblici).

In Speech and Human-Machine Dialogue, W.Minker e S. Bennacef spiegano che il riconoscimento vocale automatico è un'area complessa, perché c'è un'importante differenza tra il linguaggio formale , che è compreso e usato dalle macchine, e il linguaggio naturale , che gli esseri umani usano . Il linguaggio formale è strutturato da rigide regole sintattiche e senza ambiguità. Al contrario, in linguaggio naturale, parole o frasi possono avere diversi significati a seconda dell'intonazione di chi parla o del contesto, per esempio.

Campo di ricerca

Il riconoscimento vocale può essere collegato a molte aree della scienza: elaborazione automatica del linguaggio , linguistica , teoria dell'informazione , elaborazione del segnale , reti neurali , intelligenza artificiale , ecc.

Storico

I lavori per il riconoscimento vocale dei primi del XX °  secolo. Il primo sistema che può essere considerato come riconoscimento vocale risale al 1952.

Questo sistema elettronico sviluppato da Davis, Biddulph e Balashek presso i laboratori Bell Labs era essenzialmente composto da relè e le sue prestazioni erano limitate al riconoscimento di singole cifre (vedi riferimento). La ricerca è poi aumentata notevolmente durante gli anni '70 con il lavoro di Jelinek presso l' IBM (1972-1993). La società Threshold Technologies è stata la prima a commercializzare nel 1972 un sistema di riconoscimento con una capacità di 32 parole, il VIP100 . Oggi, il riconoscimento vocale è un campo in rapida crescita grazie all'aumento dei sistemi di bordo . Rapida evoluzione:

Principi di base

Passi

Una frase registrata e digitalizzata viene assegnata al programma RAP (Automatic Speech Recognition). Nel formalismo RAP ( ASR in inglese), la ripartizione funzionale è la seguente:

Materiale tecnico

La produzione di documentari in un sistema GDD parte da una registrazione vocale ( dettatura digitale ). Si tratta di registrare e ripristinare la voce su supporto digitale. La registrazione può essere effettuata attraverso diversi canali di registrazione: microfoni , dittafoni , smartphone ...

La restituzione, per digitazione in segreteria o verifica, viene effettuata utilizzando altoparlanti o cuffie .

I modelli

Tale sistema si basa su tre modelli principali:

La combinazione di questi tre modelli consente di calcolare la probabilità di qualsiasi sequenza di parole data un segnale vocale osservato. Il riconoscimento vocale consiste nel trovare la sequenza di parole che ha la più alta probabilità. Formalmente la soluzione al problema è il risultato di parole che massimizzano la seguente espressione matematica .

Per calibrare questi modelli per un'applicazione, è necessario utilizzare una grande quantità di corpus annotati. Il corpus deve corrispondere alle condizioni di utilizzo del sistema mirato.

Classificazione

I sistemi di riconoscimento vocale possono essere classificati lungo diversi assi:

La dimensione del vocabolario e la complessità del modello linguistico sono direttamente collegate alla lingua e alla natura dei dati da elaborare, da poche dozzine di parole per i comandi vocali a poche centinaia di migliaia di parole per coprire una lingua come il francese o Tedesco.

Prestazione

Le prestazioni grezze di un motore di riconoscimento vocale sono spesso misurate in tassi di errore delle parole ( tasso di errore delle parole ) . Al contrario, possiamo valutare la percentuale di successo. Questa velocità varia notevolmente a seconda della natura dei dati da trascrivere, del parlante e delle condizioni acustiche. Dipende poco dalla lingua. Ecco la sua definizione formale:

o :

Di seguito sono riportati alcuni risultati medi per il tasso di errore:

Menzioni letterarie

Il riconoscimento vocale è evocato in The First Circle dallo scrittore dissidente sovietico Alexander Solzhenitsyn , come strumento di repressione al servizio di Stalin .

Il riconoscimento vocale è menzionato anche in un romanzo poliziesco:

“Niente a che vedere con i nostri cari vecchi rapporti di ritorno a casa strimpellati al computer con un dito gelido da un amico che ha esitato a lungo tra la carriera di poliziotto e quella di maniscalco. Negli Yankees si parla e si registra, pulito e in ordine, senza cancellazione, ripetizione o scorrettezza dei termini. Qualsiasi mascalzone, avendo imparato a leggere su una slot machine, ti tormenta con confessioni rispetto alle quali passerebbe la Confessione di un bambino del secolo per le istruzioni per l'uso di una polvere insetticida tradotta dal romancio.

Per pilotare questa cosa, non c'era bisogno di lasciare Princeton. Tutto ciò che l'operatore doveva masturbarsi, a parte il suo aspetto piuttosto cespuglioso, era ripetere una parola pronunciata male, e di nuovo il dispositivo suggeriva un branco di sinonimi in accordo con il significato della frase. Vedendo la macchina in funzione, pensai a tutti i miei colleghi tremare per il copricapo di cui avrebbe reso intelligibile la prosa. "

Frédéric Dard alias San Antonio , Sand in Vaseline

Si parla del riconoscimento vocale come unica interfaccia tra uomo e macchina nella trilogia delle profezie di Pierre Bordage . Infatti, in questa trilogia, viene presentato un supercomputer , il DNA PC .

Software di riconoscimento vocale

I moderni sistemi di riconoscimento vocale utilizzano modelli linguistici che possono richiedere gigabyte di memoria rendendoli poco pratici, soprattutto sui dispositivi mobili. Per questo motivo, la maggior parte dei moderni sistemi di riconoscimento vocale sono effettivamente ospitati su server remoti e richiedono una connessione Internet e l'invio di contenuti vocali attraverso la rete.

Mozilla ha avviato un progetto comunitario, Common Voice , per raccogliere campioni vocali in un database gratuito, per addestrare motori di riconoscimento vocale non proprietari.

Note e riferimenti

  1. (in) Leonard E. Baum, "  A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains  " , The Annals of Mathematical Statistics ,1970, p.  164 - 171.
  2. Peckham, J. (1993). Una nuova generazione di sistemi di dialogo parlato: risultati e lezioni dal progetto SUNDIAL. Alla terza conferenza europea sulla comunicazione vocale e la tecnologia.
  3. (in) "  Apple lancia iPhone 4S iOS5 iCloud  " su apple.com ,4 ottobre 2011(visitato il 21 agosto 2017 ) .
  4. "  Microsoft annuncia notevoli progressi nel riconoscimento vocale  " , su Actuia.com ,21 agosto 2017(visitato il 21 agosto 2017 ) .
  5. San Antonio , Sabbia in vaselina , Parigi, Fiume Nero ,Settembre 1998, 209  p. ( ISBN  2-265-06530-7 ) , p.  40-41.

Vedi anche

Bibliografia

Articoli Correlati

link esterno

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">