Natura | Teorema |
---|---|
Chiamato in riferimento a | Richard Threlkeld Cox |
Il teorema di Cox-Jaynes ( 1946 ) codifica e quantifica il processo di apprendimento sulla base di cinque semplici postulati ( desiderata ). Questa codificazione coincide con quella della probabilità , storicamente di origine ben diversa. Il teorema deve il suo nome al fisico Richard Threlkeld Cox che ha formulato la versione iniziale.
Cox formalizza la nozione intuitiva di plausibilità in una forma numerica. Mostra che, se le plausibilità soddisfano un insieme di ipotesi, l'unico modo coerente per manipolarle è usare un sistema isomorfo alla teoria della probabilità.
Questo sistema induce una "logica" interpretazione delle probabilità indipendente da quello del frequenza . Fornisce una base razionale per il meccanismo di induzione logica e quindi per l'apprendimento automatico . Inoltre, il teorema, nelle condizioni imposte dai postulati, implica che qualsiasi altra forma di presa in considerazione delle informazioni nell'ambito di questa particolare rappresentazione della conoscenza sarebbe di fatto parziale. Questo è quindi un risultato estremamente forte.
I risultati di Cox avevano raggiunto solo un piccolo pubblico prima che Edwin Thompson Jaynes riscoprisse questo teorema e svelasse una serie di implicazioni per i metodi bayesiani . Irving John Good ha esplorato le conseguenze nel campo dell'intelligenza artificiale .
Stanislas Dehaene utilizza il teorema, la sua costruzione e le sue applicazioni nell'ambito dello studio dei processi cognitivi umani, seguendo in questo un'idea già affermata nel 1988 da Jaynes.
Nel suo saggio "Is Science Superstitious?" ", Bertrand Russell evoca lo " scandalo dell'induzione " :
Questo paradosso mirava a mostrare un difetto nel meccanismo di induzione, che richiedeva che il suo dominio di validità fosse specificato in modo più rigoroso: il contesto di ciò di cui stiamo parlando deve essere sempre menzionato. Quindi contare sia gli uccelli non bianchi che quelli non corvi in una stanza non ti dice la probabilità che tutti i corvi siano bianchi, ma che tutti i corvi siano bianchi in quella stanza - un'affermazione perfettamente corretta quando non c'è nessun corvo dentro la stanza, in virtù della relazione (che definisce l'implicazione logica , in logica puramente deduttiva ):
Cox pone cinque desiderata per un robot che ragionerebbe secondo una logica induttiva .
Tre di questi si applicano al metodo:
consistenza se ci sono diversi modi per trovare un risultato, devono portare allo stesso risultato; continuità del metodo una modifica del valore di un parametro non dovrebbe richiedere una modifica del metodo di calcolo; universalità vogliamo un calcolatore della situazione generale, non inteso per un uso particolare.Due sono richiesti dall'utente:
specifiche inequivocabili una proposizione deve poter essere intesa in un modo e in uno solo; nessun rifiuto di informazioni il robot conosce tutti i dati rilevanti.È necessario poter dire in qualsiasi momento di due plausibilità maggiore dell'altra . Questa relazione d'ordine suggerisce una rappresentazione quantitativa e la forma numerica sembra conveniente.
Una rappresentazione sotto forma di numeri interi rappresenterebbe un problema, nessuna plausibilità potrebbe scivolare tra due rappresentate da numeri interi successivi. Quindi abbiamo bisogno di una serie continua .
Il razionale è d'accordo, figuriamoci i numeri reali sono d'accordo.
La convenzione adottata arbitrariamente è che plausibilità maggiori saranno rappresentate da numeri maggiori .
Ciò che ci sembra ovvio non dovrebbe essere contraddetto dal modello. Questa regola apparentemente semplice non è sempre facile da applicare nel caso di preferenze collettive, come dimostrano il paradosso di Condorcet e il teorema di impossibilità di Arrow .
Regola di esempio:Se una conclusione può essere ottenuta con più di un mezzo, allora tutti questi mezzi devono dare lo stesso risultato.
Questa regola elimina il campo di esame "euristiche multiple" poiché potrebbero contenere queste contraddizioni (come talvolta fanno tali criteri Savage e Wald , rivendicando entrambi la minimax della teoria dei giochi ).
Il robot deve sempre tenere conto di tutte le informazioni fornite. Non dovrebbe ignorarne deliberatamente una parte e basare le sue conclusioni sul resto. In altre parole, il robot deve essere completamente non ideologico , neutrale da un punto di vista .
Il robot rappresenta stati di conoscenza equivalenti per plausibilità equivalenti. Se due problemi sono identici tranne che per una semplice etichettatura di proposizioni, il robot deve assegnare le stesse plausibilità a entrambi i casi.
Due proposizioni devono quindi essere considerate a priori di equivalente plausibilità quando si distinguono solo per il loro nome, cosa che difficilmente accade se non in casi particolarissimi, come per monete o dadi scaricati.
Senza entrare nelle equazioni, l'idea è che quando si compongono due plausibilità dello stesso stato, la plausibilità composta è necessariamente uguale o maggiore della maggiore delle due.
Questo è il caso inverso: quando due plausibilità devono essere entrambe verificate affinché uno stato esista, questo stato non può avere una plausibilità maggiore del minore dei due precedenti.
Good ha proposto una notazione che rende più facile manipolare le plausibilità. Alan Turing aveva sottolineato a suo tempo che l'espressione delle probabilità era molto più facile da gestire sostituendo una probabilità p variabile da 0 a 1 con l'espressione ln (p / (1-p)) consentendo una migliore discriminazione di valori molto piccoli (Molto vicino a 0) e valori molto grandi (molto vicini a 1). In particolare, in questa forma, un contributo di informazione da parte della regola di Bayes si traduce nell'aggiunta di una quantità algebrica unica a questa espressione (che Turing chiama log-dispari ), che qualunque sia la probabilità a priori di partenza prima dell'osservazione . La notazione di Good utilizza, in accordo con questa idea, una scala logaritmica .
Scala decibanIrving John Good ha utilizzato una variazione di questa idea per rendere più facile lavorare con queste nuove quantità. A differenza di Turing:
Ha chiamato la misura corrispondente, W = 10 log 10 (p / (1-p)), peso dell'evidenza perché ha permesso di "pesare" la testimonianza dei fatti secondo le aspettative - manifestate da precedenti probabilità "soggettive" all'osservazione - indipendentemente da queste aspettative .
Per evitare qualsiasi connotazione parassitaria, Dehaene preferisce parlare di decibel, come Turing, piuttosto che di decibel come Good.
In bitLe evidenze sono talvolta espresse anche in bit , in particolare nei test di validità delle leggi di scala .
Infatti, quando una legge come la legge di Zipf o di Mandelbrot si adatta ai dati meglio di un'altra legge che non richiede uno smistamento preventivo, si deve tenere conto del fatto che l' ordinamento di una sequenza di n termini seleziona arbitrariamente una permutazione tra n ! possibile. L'ordinamento rappresenta un input di informazioni (o ordine ) dell'ordine di n log 2 n . Questo input di informazioni potrebbe essere sufficiente per la migliore regolazione. Ci si può aspettare di vedere una distribuzione decrescente per riflettere meglio ciò che si è appena ordinato in ordine decrescente.
Se il guadagno di prove portato dallo smistamento rappresenta un numero inferiore di bit rispetto al costo dello smistamento, le informazioni fornite dalla considerazione di una legge scalante sono zero. L'ordine fornito è semplicemente quello che abbiamo appena inserito: il modello non deve quindi essere mantenuto in questo caso. In altri, la sua validità è evidente: vedi legge Zipf-Mandelbrot .
Notiamo che l'algebra booleana è isomorfa alla teoria delle probabilità ridotta ai soli valori 0 e 1.
Questa considerazione portò all'invenzione negli anni '70 di computer stocastici promossi dalla società Alsthom (che all'epoca si scriveva con la h ) e che intendevano combinare il basso costo dei circuiti di commutazione con la potenza di elaborazione dei computer analogici. Alcuni sono stati realizzati in quel momento.
Myron Tribus propone di considerare la probabilità come la semplice traduzione digitale di uno stato di conoscenza e non come il passaggio al limite della nozione di frequenza . A sostegno, prende la classica immagine dei dadi con uscita probabilità di ciascuna faccia è considerata è da 1/ 6 ° , anche se il dado è fatto di ghiaccio, quindi può essere eseguito su un paio di volte, che impedisce ogni passaggio al limite.
Poi immagina l'obiezione di un interlocutore: "Se immagino mentalmente mille dadi, posso effettivamente prevedere un passaggio al limite", a cui risponde: "Assolutamente. E se quindi li rappresenti solo mentalmente , è perché si tratta effettivamente solo di uno stato di conoscenza "
Le divergenze tra l'approccio frequentista e quello bayesiano suscitarono molta passione negli anni '70, quando assunsero quasi l'aspetto di una "guerra di religione". "La loro" pacifica "convivenza è ormai accettata, ciascuno con il suo dominio di massima efficienza e le due impostazioni convergono comunque quando si passa a un gran numero di osservazioni. Non c'è conflitto per i piccoli numeri, metodi frequentisti ( statistici ) non rilevanti per quest'area di applicazione.
Edwin Thompson Jaynes , nella sua ripresa e nell'approfondimento del teorema di Cox , lo usa per mostrare che qualsiasi apprendimento , compreso quello automatico, deve necessariamente utilizzare l'inferenza bayesiana (eccetto un omomorfismo se lo si desidera, come un passaggio attraverso una trasformazione logaritmica che semplifica la pratica calcoli) o forniscono risultati incoerenti e, di conseguenza, inadatti. Questo risultato estremamente forte richiede l'accettazione di cinque semplici desiderata , inclusa quella della continuità del metodo (non cambiare improvvisamente l'algoritmo semplicemente perché un dato viene modificato in modo infinitesimale) .
Vedi anche l'articolo su Logit .
Gli approcci sono diversi: la cosiddetta logica fuzzy è di origine pragmatica (un esempio di "logica fuzzy" è la classificazione degli alunni in un esame generale mediante l'uso di coefficienti arbitrari per ciascuna materia) e senza teoremi reali: è una domanda di una tecnica semplice . L'apprendimento bayesiano è una teoria solida basata su un edificio matematico e nozioni quantitative, come la massimizzazione dell'entropia (MAXENT). È vero che i due approcci alla fine convergono (rilevamento automatico delle scene per fotocamere digitali, riconoscimento vocale e dei caratteri), ma solo perché gli approcci bayesiani hanno in gran parte assorbito il resto.
Il teorema presume che una scomposizione in proposizioni sia precedente ad essa e che resti solo da stimare il valore di ciascuna. Successivamente, Watanabe ha osservato che qualsiasi scomposizione in criteri è, per costruzione, arbitraria ( Teorema del brutto anatroccolo ) e quindi non può rivendicare alcuna impersonalità . Murphy e Medin lo hanno illustrato sarcasticamente nel 1985:
"Supponiamo di elencare gli attributi che hanno in comune prugne e tosaerba per giudicare la loro somiglianza. È facile vedere che l'elenco potrebbe essere infinito. Entrambi pesano meno di 10 tonnellate (e meno di 11), non esistevano 10 milioni di anni fa (né 11), entrambi non hanno organi uditivi, entrambi possono essere abbandonati, entrambi occupano spazio e così via. allo stesso modo, l'elenco delle differenze potrebbe essere infinito ... Le due entità possono essere considerate arbitrariamente simili o dissimili dalla semplice scelta degli attributi che si sceglie di considerare rilevanti "
Ogni disciplina ha le sue misurazioni preferite: se la termica si occupa principalmente di temperature , la termodinamica sarà più legata alle misurazioni della quantità di calore , o addirittura dell'entropia . L'elettrostatica è più interessata alle tensioni che alle intensità, mentre è vero il contrario per le correnti deboli, e nell'ingegneria elettrica è più in termini di potenza che tendiamo a ragionare. Secondo la sua disciplina di origine, ogni sperimentatore tenderà quindi a fare le sue stime sulle unità a cui è abituato .
Nel caso di un quadro elettrico, uno specialista in ingegneria elettrica farà forse una stima della potenza dissipata (Ri²) mentre uno specialista in correnti deboli preferirà stimare l'intensità stessa (i). Se la convergenza a lungo termine delle stime è assicurata in entrambi i casi, non sarà fatto allo stesso modo, anche con distribuzioni a priori identiche , perché l'aspettativa matematica di un quadrato non è matematicamente legata al quadrato d 'una speranza . Questo è il principale ostacolo per i metodi bayesiani .
A prescindere dalle probabilità a priori che attribuiamo agli eventi, anche le nostre stime sono in parte "formattate" dal linguaggio e dalla "distorsione professionale" ad esso collegata. In concreto, questo ci ricorda che non c'è solo una, ma due fonti di arbitrarietà nei metodi bayesiani: quella della misurazione, che macchia le probabilità a priori scelte e quella del metodo, che corrisponde alla nostra rappresentazione del problema. D'altra parte, l'arbitrarietà è limitata a questi due elementi ei metodi bayesiani sono quindi completamente impersonali.