Concilio dei topini

Il teorema di de Finetti

Topino 106

[Aggiunta del 20 aprile: mi è stato fatto notare che questo post potrebbe essere offensivo nei confronti del professore qui citato. Ci tengo a far notare che con questo post non intendevo prendere in giro il professore, quando piuttosto me stesso, come si vede fin dall’inizio nel dialogo in cui, dopo aver mostrato molta confidenza, faccio la figura dell’ignorante.]

Un paio di mesi fa ero andato a parlare con un professore di statistica che era un papabile tutor per il dottorato. Lui mi aveva chiesto un po’ di raccontargli cosa avevo studiato di statistica, visto che venivo da fisica, cosicché lui si facesse un’idea delle mie conoscenze di base. Dopo che gli ebbi raccontato in breve il tipo di analisi dati che si fa ai corsi di laboratorio, cominciò dicendomi

Prof: Direi che tu hai una certa esperienza nell’applicare queste nozioni in pratica, suppongo però che ti manchino i fondamenti della teoria della probabilità—

Io: No prof, credo di saperli abbastanza bene i concetti di base della statistica bayesiana, me li sono studiati da solo!

Prof: Ah. Quindi sapresti enunciarmi il teorema di de Finetti?

Io:

Dunque, non è che proprio non avessi idea di cosa dire, solo che le poche informazioni che avevo su de Finetti era che nel libro di statistica di Jaynes c’era scritto che de Finetti aveva torto, non so bene su cosa ma aveva torto ed era un folle o qualcosa del genere, e comunque il Jaynes non l’avevo mai letto quindi erano informazioni di seconda mano. Provai comunque a menzionare che la mia definizione di probabilità era simile a quella di Jaynes, subito il professore non riconobbe il nome, ma dopo poche ulteriori battute gli venne in mente e disse solo, laconicamente:

Ah sì… Jaynes…

Ipotizzai che forse era meglio non continuare la discussione e passammo ad altri argomenti.

Dunque presi due risoluzioni: che appena avessi avuto tempo mi sarei letto una buona volta il Jaynes, e che dovevo capire cosa fosse questo teorema di de Finetti, magari da un’altra fonte più neutrale.

Wikipedia si è rivelata quasi del tutto sufficiente al secondo scopo. Il teorema di de Finetti dice che una qualsiasi distribuzione di una sequenza infinita di variabili scambiabili è scrivibile come una distribuzione in cui le variabili sono indipendenti e identicamente distribuite condizionatamente su una certa quantità ignota.

Detto così forse non è chiaro, ma è facile fare un esempio comprensibile. Considerate infiniti lanci di una moneta truccata. L’ordine dei lanci non conta, quindi la distribuzione congiunta di tutti i risultati dei lanci rimane la stessa se scambio due lanci, questa è la proprietà di “scambiabilità”. In termini da fisico è una funzione totalmente simmetrica. Ora, se voi sapeste quanto è truccata, cioè sapeste qual’è la probabilità $p$ che esca testa, allora tutti i lanci sarebbero indipendenti e avrebbero probabilità $p$ di dare testa. Ma se non sapete $p$, allora i risultati dei lanci sono tutti correlati: cioè se voi vedete uscire più teste, penserete che $p > 50\,\%$ e quindi che i prossimi lanci diano più probabilmente testa.

In simboli, siano $x_1, x_2, \ldots$ le variabili, e $p(x_1, x_2, \ldots)$ la loro distribuzione congiunta. Allora esiste una variabile $\lambda$ tale che è possibile scrivere la distribuzione come $$p(x_1, x_2, \ldots) = \int \mathrm{d} \lambda\, p(x_1, x_2, \ldots|\lambda) p(\lambda),$$ dove la distribuzione condizionata si fattorizza come $$p(x_1, x_2, \ldots|\lambda) = p(x_1|\lambda) p(x_2,\lambda) \cdots,$$ in cui tutte le distribuzioni delle singole $x_i$ sono uguali, cioè $p(x_1 = x|\lambda) = p(x_2 = x|\lambda) = \cdots$.

Il senso di questo teorema è che se ho una sequenza di esperimenti ripetibili in cui l’ordine non conta, esiste sempre matematicamente la distribuzione $p(\lambda)$ su una qualche variabile che se la sapessi mi renderebbe indipendenti tutti gli esperimenti, cioè in altre parole se sapessi $\lambda$, sapere il risultato degli altri esperimenti fatti non migliorerebbe la mia predizione per il risultato di un esperimento che devo ancora fare, e quindi $\lambda$ racchiude tutta l’informazione possibile che posso inferire dagli esperimenti, lo “stato di natura”. In ambito bayesiano allora $p(\lambda)$ è la distribuzione a priori di $\lambda$, e il fatto di tirarla fuori con un teorema serve a rispondere solidamente al punto di vista frequentista in cui i parametri ignoti che regolano la distribuzione degli esperimenti non possono essere dotati di distribuzioni di probabilità perché sono quantità fisse che non posso “estrarre” tante volte come il risultato del lancio di una moneta.

Ma che bello! Primo problema: e quando non sono in una situazione in cui ho una distribuzione scambiabile? Vabbé, i frequentisti fanno sempre i calcoli immaginando di poter ripetere all’infinito l’esperimento in modo scambiabile, quindi per rispondere ai frequentisti va bene. Però se questo teorema deve darmi un fondamento della probabilità bayesiana, allora voglio che serva a qualcosa anche quando non faccio i pocci dei frequentisti. Il che ci porta al secondo problema: il teorema vale solo per sequenze infinite!

Come solo infinite???

Questa è stata la mia reazione indignata. Su Wikipedia c’era un esempio semplice semplice: prendere una distribuzione degenere su due variabili binarie in cui $x_2 = -x_1$ e $P(x_1=0) = P(x_1=1) = 1/2$. Allora banalmente $P(x_1,x_2) = P(x_2,x_1) = 1/2$, che è diverso da $P(x_2)P(x_1) = 1/4$, quindi sono scambiabili ma non indipendenti. Inoltre è impossibile renderle indipendenti condizionando su qualcosa: un vincolo “rigido” come $x_2 = -x_1$ non si può far sparire condizionando, perché condizionare consiste nel restringere l’insieme degli eventi di cui considero la probabilità e poi dividere per la probabilità iniziale di quell’insieme in modo che il totale ritorni 100 %, se nell’insieme iniziale era sempre vero che $x_2 = -x_1$ allora sarà vero in particolare anche nel sottoinsieme. In termini di informazione, una proposizione già certamente falsa o vera non può diventare incerta se aggiungo delle informazioni.

Ma non sarà che i controesempi sono solo delle distribuzioni del cavolo che in realtà non vengono mai fuori? Ho cercato di crearmi un’intuizione di come funziona il teorema per capire meglio come mai non vale con un numero finito di variabili.

Nel caso di variabili discrete, un controesempio abbastanza semplice è l’urna con le palline. Ipotizziamo di sapere esattamente quante palline ci sono nell’urna, e anche quante di ogni colore, e che le estraiamo una alla volta fino a che non sono finite. Le nostre variabili $x_1, \ldots, x_n$ sono i colori della prima, seconda, etc. pallina estratta. Anche se le palline sono state estratte in un certo ordine ben definito, la distribuzione congiunta complessiva è comunque completamente simmetrica. Cioè: se io so solo che la prima pallina estratta è rossa, la probabilità che le altre palline siano rosse si abbassa uniformemente, perché so che c’è una pallina rossa in meno tra quelle rimaste. Ma questo vale allo stesso modo anche se so che l’ultima pallina estratta è rossa, ma non so quali colori sono usciti prima: le palline “rimaste” sono già state estratte, ma se non so quali colori hanno allora il ragionamento sul togliere una pallina rossa dal conto è identico.

Però il teorema di de Finetti non vale, in modo simile all’esempio di prima con $x_2 = -x_1$. In questo caso la degenerazione è che se so i colori di $n-1$ palline, il colore di quella rimasta è necessariemente determinato con esattezza. Quindi non c’è una variabile su cui potrei condizionare per rendere indipendenti e identicamente distribuiti i colori delle palline. Anche nel caso estremo in cui condizionassi su tutti colori usciti, rendendo la distribuzione triviale, sarebbero tecnicamente indipendenti ma comunque con distribuzioni individuali diverse.

Con le variabili continue invece ho pensato un modo di vederla più generale. (Credo corrisponda in qualche modo a quello che su Wikipedia chiamano “condizionamento sulla sigma-algebra”.) Consideriamo una singola estrazione della sequenza infinita di variabili. Qui siamo nel caso in cui il teorema vale, quindi posso immaginare equivalentemente di aver prima estratto $\lambda$ da $p(\lambda)$ e poi di aver estratto infinite volte da $p(x_i|\lambda)$. Quindi facendo l’istogramma via via sempre più fino delle $x$ che ho estratto, ottengo al limite proprio la distribuzione $p(x_i|\lambda)$. Ora, dal punto di vista in cui ricavo questa distribuzione dal limite dell’istogramma senza sapere che c’è dietro $\lambda$, quello che osservo è che ogni volta che estraggo le $x$ ottengo una certa distribuzione limite dell’istogramma (piuttosto che non osservare alcuna convergenza), quindi posso considerare la distribuzione di queste distribuzioni, che in qualche modo posso parametrizzare con un parametro $\lambda$. Alla peggio $\lambda$ sarà un vettore numerabile perché le distribuzioni sui reali sono $L_1$.

Cosa succede se ho un numero finito di variabili? Che non posso vedere a cosa converge l’istogramma! Cioè, posso immaginarmi che se in qualche senso potessi andare avanti, magari convergerebbe a qualcosa. Però il punto è proprio che non posso andare avanti. È come se il fatto stesso di non poter controllare a mano qual’è la distribuzione limite faccia sì che sia possibile far passare di soppiatto delle distribuzioni illegali. Essere frequentisti è come costruire una megabarriera oloscanner lungo tutto il confine che si estende finanche nel sottosuolo e nei cieli a mo’ di cupola e analizza ai raggi yupsilon ogni singolo individuo che l’attraversa rilevandone tutti i pensieri fino ai più reconditi, e poi la droga la coltiva un tizio sul balcone di fianco al ministero.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

© 2024 Concilio dei topini Torna sù