Combinatori di parole

La combinazione delle parole è una branca della matematica e dell'informatica teorica che applica alla combinatoria le parole finito o infinito. Questo ramo si è sviluppato da diversi rami della matematica: teoria dei numeri , teoria dei gruppi , probabilità e, naturalmente, combinatoria . Ha collegamenti con vari argomenti informatici, come algoritmi di testo , ricerca di pattern e compressione di testo.

Campi di studio e applicazioni

L'oggetto della combinatoria delle parole sono le proprietà di parole finite o particolari parole infinite . Questo è da paragonare alla teoria dei linguaggi formali , che si interessa di insiemi di parole, in vista della loro rappresentazione e analisi.

Per una classe di parole, lo studio si concentra su caratterizzazioni equivalenti, proprietà combinatorie, enumerazione, enumerazione sistematica o generazione casuale. Studiamo anche gli algoritmi e la loro efficienza per l'effettiva realizzazione di queste operazioni.

La combinatoria delle parole trova applicazioni in vari campi dell'informatica teorica , come la teoria degli automi e la linguistica . Lo sviluppo del testo digitale e dell'elaborazione di testi ha portato a importanti sviluppi nella combinatoria delle parole. È presente alla base di algoritmi di testo, linguaggio naturale trattamento automatico , l'elaborazione vocale e bioinformatica .

Storico

La combinazione delle parole indietro al lavoro di Axel Thue sui simboli follow non ripetitivi agli inizi del XX °  secolo. I lavori principali, negli anni successivi, sono quelli di Marston Morse e dei suoi coautori sulla continuazione di Prouhet-Thue-Morse e le parole di Sturmian . Una famosa applicazione della combinatoria delle parole è l'uso che si fa di una sequenza senza ripetizione nella risposta negativa alla congettura di Burnside data da Piotr Novikov e Adian .

È Marcel-Paul Schützenberger il fondatore della moderna combinatoria delle parole, in particolare nei lavori con Roger C. Lyndon e André Lentin . I suoi corsi sono stati scritti da Jean-François Perrot e hanno dato vita al libro “Combinatorics on words”, un'opera collettiva firmata dallo pseudonimo M. Lothaire , e pubblicata nel 1983. La combinatoria delle parole si è sviluppata rapidamente da questa data. Altri due libri di sintesi, firmati Lothaire, compaiono in seguito, e diverse opere collettive prendono il loro seguito.

Temi

Le parole di Lyndon

Le parole di Lyndon , così chiamate dal matematico Roger Lyndon , sono parole primitive e minimali nella loro combinazione di classe. Uno dei risultati di base è che ogni parola ammette una singola fattorizzazione decrescente nelle parole di Lyndon (risultato erroneamente attribuito a Chen, Fox e Lyndon). Un altro risultato notevole è che il prodotto, in ordine crescente, delle parole di Lyndon la cui lunghezza divide un dato intero è una parola di de Bruijn .

Prove

La combinatoria delle parole si occupa in particolare di descrivere le condizioni in cui compaiono le ripetizioni nelle parole ( parole senza quadrati , tra le altre), la costruzione o trasformazione delle parole, per morfismo . Un caso più generale è coperto dalla nozione di ragione inevitabile o dal suo opposto, ragioni evitabili . Ad esempio, lo "schema" (dove e sono simboli) denota la presenza, in una parola, di un fattore della forma (dove questa volta e sono parole). Dire che una parola evita questo schema è che non contiene questo fattore. Dire che un pattern è inevitabile significa dire che qualsiasi parola sufficientemente lunga contiene un fattore della forma descritta dal pattern. Lo schema è inevitabile, lo schema è evitabile, anche su due lettere.

La nozione di ripetizione è estesa alle ripetizioni frazionarie come segue: il periodo (detto anche periodo minimo ) di una parola è il più piccolo intero come per . L' esponente della parola è il quoziente della sua lunghezza per il suo periodo. Ad esempio, la parola ha il periodo 3, ha l'esponente 7/3. L' esponente critico di una parola infinita, che è il più grande esponente di un fattore nella parola, dipende dalla natura della parola. Un tema simile è la copertura di una parola con un motivo; le parole che ammettono tale copertura sono chiamate parole quasi-periodiche . entente

L'esistenza di una soglia per le ripetizioni frazionarie è stata ipotizzata da Françoise Dejean nel 1972; la prova di questo fatto è il teorema di Dejean .

La nozione di ripetizione è estesa anche alle cosiddette ripetizioni abeliane: quindi un quadrato abeliano è una parola dove è un anagramma di , cioè uguale fino a una permutazione delle lettere; per esempio è un quadrato abeliano. Possiamo mostrare che i cubi abeliani possono essere evitati su 3 lettere, ma i quadrati abeliani sono evitabili solo su 4 lettere.

Una ripetizione massima (in inglese a run ) in una parola è un fattore di esponente di almeno 2 e che non può essere esteso a una ripetizione più lunga. Il numero totale di ripetizioni massime in una parola di lunghezza è al massimo uguale a . Questo risultato, chiamato teorema delle ripetizioni massime , detto anche “teorema delle serie”, è stato dimostrato nel 2015.

Parole senza quadrati e senza poteri

Un quadrato è una parola composta da due parti uguali consecutive, come "caramella" o "papà". In bioinformatica , un quadrato è chiamato ripetizione in tandem . Una parola senza quadrato è una parola che non contiene un fattore quadrato. Ad esempio, la parola "consecutivamente" è una parola senza quadrato. Più in generale, una parola senza cubo e una parola senza una potenza -esima è una parola che non contiene un cubo o una potenza fattore-esima. Ci sono infinite parole senza quadrati su qualsiasi alfabeto di almeno tre lettere, come dimostrato da Axel Thue . Su un alfabeto di due lettere, una parola del genere non esiste. La parola di Prouhet-Thue-Morse contiene quadrati, d'altra parte è senza cubo.

Complessità combinatoria di una parola

Esistono diversi modi per comprendere la complessità di una serie infinita di simboli. Intuitivamente, queste nozioni dovrebbero indicare fino a che punto una sequenza è "complicata" o "complessa", o "casuale" o "caotica". La complessità computazionale è una misura che valuta quanto sia difficile costruire. Questa difficoltà è misurata dalla dimensione del programma necessaria per costruirlo, o dal tempo necessario per calcolarne l' ennesimo termine. La teoria dell'informazione algoritmica fondata da Kolmogorov , Solomonoff e Chaitin affronta questi problemi. La complessità di Kolmogorov di una sequenza è la dimensione del programma più breve su una macchina di Turing che genera quella sequenza. La nozione è anche correlata alla comprimibilità di una sequenza.

Un'altra misura, più aritmetica o combinatoria, è la complessità “in factor”, in inglese “  subword complex  ” , detta anche complessità combinatoria . Misura il numero di fattori che una parola ha per ogni lunghezza. Formalmente, la funzione di complessità di una parola finita o infinita è la funzione che, per ogni intero , conta il numero di fattori (o blocchi) di lunghezza in questa parola. Per una parola infinita , un risultato dovuto a Ethan M. Coven e Gustav Hedlund dice che se per un numero intero , allora la parola è in definitiva periodica. Le parole infinite aperiodiche di minima complessità hanno quindi una funzione di complessità pari a . Queste sono le parole di Sturmian . La più nota delle parole sturmiane è la parola di Fibonacci . Le misure correlate sono la complessità palindromica che misura il numero di palindromi o la complessità aritmetica .

Il termine “complessità combinatoria”, in opposizione alla complessità algoritmica, è piuttosto recente: lo troviamo ad esempio con Jean-Paul Allouche o Michel Rigo.

Parole automatiche

Le parole automatiche sono sequenze che possono essere impostate utilizzando degli automi finiti . La suite Prouhet-Thue-Morse è l'esempio paradigmatico di questa famiglia. Le pieghe della carta sono un altro esempio.

parole morfiche

Una parola morfica è una parola infinita ottenuta dall'iterazione di un morfismo, seguita dall'applicazione di un secondo morfismo. In assenza del secondo morfismo, si parla di una parola puramente morfica . È un metodo molto efficace e diffuso per costruire parole infinite. È "robusto" nel senso che è stabile per tutti i tipi di operazioni. Ad esempio, la parola infinita di Fibonacci è una parola puramente morfica, così come la sequenza Prouhet-Thue-Morse . La sequenza caratteristica dei quadrati:1100100010000001000... è morfico, ma non è puramente morfico.

Complessità abeliana

La complessità abeliana di una parola finita o infinita è la funzione che conta il numero dei fattori di lunghezza dati in questa parola, fino alla permutazione delle lettere. Questa è un'altra misura della complessità combinatoria di una sequenza.

Equazioni tra le parole

Un'equazione parola o un equazione tra parole (in inglese equazione parola ) è una coppia di parole , di solito scritta nella forma di un'equazione

.

Qui, e sono parole composte da lettere che sono costanti o variabili. Le costanti sono scritte in minuscolo, le variabili in maiuscolo. Ad esempio, l'equazione

contiene quattro occorrenze della variabile e le costanti e . Una soluzione di un'equazione è un insieme di parole senza variabili, una per ogni variabile, in modo tale che la sostituzione delle parole con le variabili rende uguali le due componenti dell'equazione. Ad esempio, per (e più in generale per con , entrambi i membri dell'equazione diventano uguali, a (e più in generale a ).

Un famoso teorema di Makanin dice che è decidibile se un'equazione di parole, e più in generale un insieme di equazioni di parole, ha una soluzione. In questo, le equazioni di parole si distinguono dalle equazioni diofantee per le quali l'esistenza di soluzioni è indecidibile dal teorema di Matiassevitch che risolve il decimo problema di Hilbert .

Un problema correlato è la descrizione di tutte le soluzioni di una data equazione, solitamente in forma parametrizzata. Il primo studio sistematico in questa direzione è di Hmelevskii.

ricorrenza

Una parola infinita è ricorrente se un qualsiasi fattore di appare infinite volte in .

Una parola infinita è uniformemente ricorrente o con spazi limitati se due occorrenze consecutive di un fattore di sono a distanza limitata. Più precisamente, per ogni fattore di , esiste una costante tale che due occorrenze consecutive di in siano al più remote .

C'è un legame tra le parole uniformemente ricorrenti e gli insiemi sindetici . Un insieme di interi naturali si dice sindetico se esiste un intero tale che per due interi consecutivi di , si ha . Una parola infinita è quindi uniformemente ricorrente se, per qualsiasi fattore di , l'insieme degli inizi di occorrenza di in è sindetico.

La funzione di ricorrenza di una parola infinita fornisce il valore massimo degli spazi tra occorrenze consecutive di parole di una data lunghezza. Più precisamente, è il più piccolo intero tale che ogni fattore di lunghezza è un fattore di qualsiasi fattore di lunghezza di , formalmente Possiamo vedere l'intero come la larghezza minima di una finestra che facciamo scorrere sulla parola e che ha la proprietà che qualsiasi fattore di lunghezza appare sempre nella sezione coperta dalla finestra.

Funzione di ricorrenza della sequenza Prouhet-Thue-Morse

Per la parola Thue-Morse , abbiamo (qualsiasi fattore di lunghezza 3 contiene uno e uno ) e (il fattore non contiene ). Infatti, la funzione di ricorrenza è stata calcolata da Morse e Hedlund, già nel 1938. I primi valori sono riportati nella seguente tabella:

Funzione di ricorrenza della sequenza Prouhet-Thue-Morse
1 2 3 4 5 6 7 8 9 10
3 9 11 21 22 41 42 43 44 81

Questo è il risultato A179867 di OEIS . La formula di ricorrenza è abbastanza semplice: per , abbiamo . Ciò si traduce nella seguente forma chiusa. Mettiamo in posa , con . Tale scrittura è sempre possibile per . Allora.

Funzione di induzione di parole infinite di Fibonacci

Questa funzione di ricorrenza ha un'espressione un po' meno semplice ed è nota dall'articolo di Morse e Hedlund nel 1940. Abbiamo dove è l'intero tale che . Ecco i numeri di Fibonacci con .

Funzione di induzione di parole infinite di Fibonacci
1 2 3 4 5 6 7 8 9 10
3 6 10 11 17 18 19 28 29 30

E ' l'A183545 Suite del OEIS . Questa formula si estende a tutte le parole sturmiane .

Note e riferimenti

(fr) Questo articolo è parzialmente o interamente tratto dall'articolo di Wikipedia in inglese intitolato “  Combinatoria sulle parole  ” ( vedi l'elenco degli autori ) .
  1. FM Dekking , “  Sequenze fortemente non ripetitive e set privi di progressione  ”, Journal of Combinatorial Theory, Series A , vol.  27, n .  21979, pag.  181-185 ( ISSN  0097-3165 , DOI  10.1016 / 0097-3165 (79) 90044-X )
  2. Veikko Keränen , “  I quadrati abeliani sono evitabili su 4 lettere  ”, Automi, Linguaggi e Programmazione. ICAP ,1992, pag.  41–52 ( ISSN  0302-9743 , DOI  10.1007 / 3-540-55719-9_62 ).
  3. Jean-Paul Allouche, “  Rilievo di alcune nozioni di complessità per successioni finite e infinite  ”, Funzioni in teoria dei numeri e loro aspetti probabilistici , Kyoto, Ris. ist. Matematica. Sci. (CERCHI),2012, pag.  27-37 ( Recensioni di matematica  MR3014836 , leggi online ).
  4. Michel Rigo, Linguaggi formali, automi e sistemi di numerazione , vol.  1, John Wiley & Figli,2014, 336  pag. ( ISBN  978-1-84821-615-0 e 1848216157 ).
  5. Makanin 1977 .
  6. Diekert 2002 .
  7. Hmelevskii 1976 .
  8. Allouche & Shallit (2003), pagine 328-331, e Morse & Hedlund (1938), pagine 834-839.

Vedi anche

Articoli Correlati

Bibliografia

StoriaRivedi gli articoliLotarioBerthé - RigoMonografieTesti storici <img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">