Tre mesi fa mi ero riproposto di leggere il libro di Jaynes di statistica, “Probability Theory: The Logic of Science”, giacché l’idea che mi ero fatto negli anni dei fondamenti di statistica Bayesiana e l’idea che mi ero fatto di cosa potesse esserci dentro quel libro si somigliavano, e forse era il caso di leggerlo per davvero. In effetti non ho imparato la statistica sui libri ma imitando altre persone che la usano e ragionando da solo (per disimparare quello che mi insegnavano a Fisica), quindi visto che adesso vorrei foggiarmi del titolo di “statistico” forse è meglio controllare che quello che mi sono inventato abbia senso, e il modo più opportuno di verificarlo è leggere il libro incompiuto pubblicato postumo di un fisico noto per litigare con gli statistici.
Comunque: l’ho letto davvero! Già da un pezzo! (La notte.)
Risultato: sono perlopiù d’accordo. Il suo modo di vedere la statistica come un’estensione della logica e applicare questo principio fino in fondo con coerenza matematica inviolabile è il più comprensibile che abbia incontrato, e in effetti mi ha aiutato a chiarirmi ulteriormente le idee. Ragionandoci sù mi è venuta in mente questa domanda: perché la logica funziona? Io prima spesso mi chiedevo come mai la probabilità funzionasse. A leggere superficialmente la definizione (frequentista, buuu) con la frequenza relativa di un evento sembra chiaro cosa vuol dire, solo che è una definizione che si morde la coda perché devi mandare il numero di eventi all’infinito, e devono essere indipendenti, e comunque la frequenza tende alla probabilità solo in probabilità. Cioè se lanciando la moneta ottieni sempre testa in realtà va bene. Con la probabilità Bayesiana almeno hai un punto di partenza solido, però filosoficamente continua a essere stupefacente che la probabilità funzioni davvero. Se una cosa ha probabilità 0.5 non mi stupisco sia che succeda sia che non succeda. Se succede qualcosa con probabilità 0.01 mi stupisco ma pazienza. Se succede qualcosa a cui assegnavo probabilità 0.000000001 lascio direttamente perdere lo stupore e faccio un update Bayesiano su un livello nuovo del modello e cambio la probabilità che avrei dovuto assegnare. Insomma, perché le cose improbabili a un certo punto non succedono per davvero? D’altro canto: perché, allo stesso tempo, quando ci sono tante alternative le cose improbabili succedono continuamente senza che mi stupisca?
Questo è un classico problema filosofico-statistico, e ci si può ragionare a lungo, però adesso che ho cominciato a considerare la probabilità come estensione della logica, mi chiedo: ma in effetti perché cavolo funzionava, la logica? Perché se A e B allora A e anche B e poi A viene fuori che è vero per davvero? Non so rispondere perché senza logica non riesco neanche a ragionare, quindi pace.
Quello con cui non sono d’accordo invece è il principio di massima entropia. O meglio, sono d’accordo con i conti e la definizione, ma non penso che sia un “principio”. Anche Jaynes non riesce a giustificare questo assioma con la stessa solidità con cui mostra che l’unico modo sensato per estendere la logica è la probabilità, lo menziona numerose volte parlandone come di un rimedio miracoloso, e poi quando arriva a tirarlo fuori per davvero delude le aspettative, sostanzialmente quello che dice è “boh dai è ragionevole” (questa mia asserzione è assai opinabile). Il problema più specifico che mi dà noia è che massima entropia non è meta-coerente.
Esempio: consideriamo il simplesso 2D (un triangolo) come spazio delle possibili distribuzioni di probabilità per una variabile con tre valori. Se non ho vincoli, massima entropia mi dà la distribuzione uniforme (il centro del triangolo). Se conosco un valore atteso, ad esempio la media o la varianza, questo vincolo mi seleziona una retta nel triangolo, perché un valore atteso è una combinazione lineare delle probabilità, e massima entropia mi trova il punto su quella retta che corrisponde alla distribuzione il più “uniforme” possibile. Però adesso considero un vincolo più stronzo: escludo le distribuzioni entro una circonferenza concentrica con il triangolo. In altre parole sto vietando le distribuzioni vicine a quella uniforme, quale che sia il motivo. Con questo vincolo massima entropia non è definita perché per simmetria ci saranno almeno tre punti di massimo, per evitare questa difficoltà che non mi interessa per il punto a cui voglio arrivare disallineo di epsilon il “buco” per avere un massimo unico, che dovrebbe capitare sul bordo del buco.
Adesso che ho questi tre casi, 1) no vincoli, 2) vincolo lineare (valore atteso noto), 3) vincolo non lineare (buco nello spazio delle distribuzioni), aggiungiamo la parte “meta”: applico massima entropia alla distribuzione delle distribuzioni. Cioè sto considerando una densità di probabilità a dominio sul triangolo, con misura di base data da quella naturale delle probabilità, e poiché lo spazio in cui sto guardando il triangolo è una trasformazione affine delle probabilità, la misura di base è uniforme. Quindi massima entropia mi dà la distribuzione uniforme sul triangolo. Per applicare i vincoli semplicemente prendo solo la fetta o la parte selezionata, quindi nel caso (1) ho la distribuzione uniforme su tutto il triangolo, (2) distribuzione uniforme su un segmento, (3) distribuzione uniforme tranne che nel buco in cui la probabilità è nulla.
Cosa intendo con “misura naturale delle probabilità”? Il punto è cruciale perché per applicare massima entropia con le densità devo definire la misura di base rispetto a cui calcolo la divergenza di Kullback-Leibler. Io dico che la misura naturale è $\mathrm dP_1\mathrm dP_2\mathrm dP_3\delta(P_1+P_2+P_3-1)$. Per vederlo, consideriamo come si passa dalla “probabilità delle probabilità” alla “probabilità e basta”. Per definizione ho trivialmente che $P(i|P_1,P_2,P_3) = P_i$, aggiungo la distribuzione sulle P e marginalizzo: $$\begin{align}P(i) &= \int\mathrm dP_1\mathrm dP_2\mathrm dP_3\, P(i|P_1,P_2,P_3) p(P_1,P_2,P_3) = \\ &= \int\mathrm dP_1\mathrm dP_2\mathrm dP_3\, P_i\, p(P_1,P_2,P_3) = \\ &= E_{\mathbf P\sim p}[P_i].\end{align}$$ Quindi la misura è naturale perché è quella scritta nelle variabili di cui devo prendere il valore atteso.
A questo punto ho due modi di tirar fuori $P(i)$ dal nulla: A) facendo massima entropia direttamente sulla distribuzione $P(i)$, B) facendo massima entropia su $p(P_1,\ldots)$ e poi ricavando $P(i)$ prendendone il valore atteso. Perché il principio di massima entropia sia meta-coerente, (A) e (B) dovrebbero portare allo stesso risultato, ma così non è. Prendere il valore atteso di $p(P_i)$, considerando che a parte i vincoli è uniforme, corrisponde a prendere il baricentro della fetta di triangolo selezionata. Nel caso (1) il baricentro è il centro del triangolo, quindi è coerente. Nel caso (2) il baricentro è il centro del segmento, prendendo per esempio un’altezza del triangolo, poiché passa per il centro del triangolo (nel quale c’è il massimo assoluto dell’entropia) (A) darà il centro del triangolo mentre (B) darà il centro del segmento che è più spostato verso un vertice. Nel caso (3) il baricentro è dentro al buco, che è addirittura una zona esclusa a priori nel caso (A).
Vediamo meglio cosa succede nel caso (2). Uso il vincolo $E[i] = 2$, che corrisponde a un’altezza. Se applico direttamente massima entropia ottengo la distribuzione uniforme, poiché è compatibile con questo valore atteso. Se invece applico massima entropia alla iper-distribuzione delle $P$ ottengo una distribuzione spostata verso il vertice che corrisponde ad avere $P_2=1$, cioè ottengo una distribuzione che favorisce 2 rispetto a 1 e 3. A occhio aumentando il numero $n$ di possibili valori di $i$, ovvero la dimensionalità del simplesso $n-1$, il baricentro della fetta $(n-2)$-dimensionale dovrebbe venire sempre più vicino a quello del simplesso (pensare a un triangolo equilatero dentro a un tetraedro). Quindi congetturo che per $n\to\infty$, magari con qualche appropriata condizione su come sono fatti i vincoli, se i vincoli sono lineari massima entropia dà lo stesso risultato di marginalizzare una iperdistribuzione uniforme e quindi diventa coerente.
Il mio ragionamento ha due punti deboli. Il primo è che sto facendo tutte le deduzioni matematiche a naso senza scrivere mezza dimostrazione. Il secondo è che il modo in cui dico qual è la misura di base sulle distribuzioni non mi convince. Vorrei poter ricavare che la distribuzione giusta è uniforme nelle $P_i$ con un qualche ragionamento pulito di simmetria. Intuitivamente la probabilità ha un’unità di misura naturale perché è additiva su proposizioni mutualmente esclusive, e da questo vorrei ricavare che a priori è invariante considerare un’intorno di una certa larghezza di una distribuzione piuttosto che un’altro, se l’unica cosa che ho è la definizione dello spazio campionario. Però non riesco a capire come formalizzarlo bene.
L’ipotesi che per $n\to\infty$ il risultato sia lo stesso dovrebbe corrispondere alla derivazione combinatoria di massima entropia (Jaynes cap. 9), in cui $n$ anziché essere il numero di ripetizioni diventa il numero di $P_i$ e $m$ anziché essere il numero di uscite possibili a ogni ripetizione diventa il numero di punti con cui discretizzo le $P_i$. È un po’ diverso perché il vincolo coinvolge separatamente ogni singola $P_i$ con un suo coefficiente invece che assegnare i coefficienti in base ai possibili valori di $P_i$, però forse per $m\to\infty$ non cambia, o magari si può riadattare il procedimento. Un’altra cosa che mi ricorda questa procedura è la derivazione di Wallis (Jaynes cap. 11.4), quella in cui immagino di lanciare dei quanti di probabilità nei bin a caso ed escludere le distribuzioni che risultano non compatibili con i vincoli. In altre parole parto da una distribuzione multinomiale sulle $P_i$ discretizzate, che nel limite $m\to\infty$ (che corrisponde a $n/m$ in Wallis) diventerebbe una delta sulla distribuzione uniforme, e ci applico i vincoli prima di passare al limite, ottenendo una delta sulla distribuzione di massima entropia. Quindi vorrei che per $n$ ($m$ in Wallis) che tende a infinito partire dalla multinomiale e dall’uniforme mi porti alla stessa media, anche se sono distribuzioni molto diverse.
Per $n$ piccolo bisogna usare massima entropia o iperpriore uniforme? Secondo me il secondo, posto che riesca a giustificare per bene perché deve essere uniforme in assenza di altre informazioni. In ogni caso è più consistente di massima entropia.
Il riso
Nel capitolo 16, “Orthodox methods: historical background”, Jaynes prende per il culo Fisher e i suoi amici coloro che insultava di persona anziché per via scritta, però a un certo punto cerca anche di spiegare e giustificare la nascita della statistica frequentista nella sezione 16.6, “Pro-causal and anti-causal bias”.
One criticism of orthodox methods that we shall find in the next chapter is not ideological, but that they have technical shortcomings (waste of information) which, in practice, all tend to bias our inferences in the same direction. The result is that, when we are testing for a new phenomenon, orthodoxy in effect considers it a calamity to give credence to a phenomenon that is not real, but is quite unconcerned about the consequences of failing to recognize a phenomenon that is real.
To be fair, at this point we should keep in mind the historical state of affairs, and the far worse practices that the early workers in this field had to counteract. As we noted in Chapter 5, the uneducated mind always sees a causal relationship – even where there is no conceivable physical mechanism for it – out of the most far-fetched coincidence.
Johannes Kepler (1571–1630) was obliged to waste much of his life casting horoscopes for his patron (and complained about it privately). No amount of evidence showing the futility of this seems to shake the belief in it; even today, more people make their living as astrologers than as astronomers.
In the 18th and 19th centuries, science was still awash with superstitious beliefs in causal influences that do not exist, and Laplace (1812) warned against this in terms that seem like platitudes today, although they made him enemies then. Our opening quotation from Helmholtz shows his exasperation at the fact that progress in physiology was made almost impossible by common belief in all kinds of causal influences for which there was no physical mechanism and no evidence. Louis Pasteur (1822–1895) spent much of his life trying to overcome the universal belief in spontaneous generation.
Although the state of public health was intolerable by present standards, hundreds of plants were credited with possessing miraculous medicinal properties; at the same time, tomatoes were believed to be poisonous. As late as 1910 it was still being reported as scientific fact that poison ivy plants emit an ‘effluvium’ which infects those who merely pass by them without actual contact, although the simplest controlled experiment would have disproved this at once.
Today, science has advanced far beyond this state of affairs, but common understanding has hardly progressed at all. On the package of a popular brand of rice, the cooking instructions tell us that we must use a closed vessel, because ‘the steam does the cooking’. Since the steam does not come into contact with the rice, this seems to be on a par with the poison ivy myth. Surely, a controlled experiment would show that the temperature of the water does the cooking. But at least this myth does no harm.
Senti Jaynes, prendersela con Fisher va bene, però sulle questioni di cucina ti farebbe bene stare zitto! Il tuo “controlled experiment” porterebbe inevitabilmente a una delle due seguenti conclusioni:
- Il riso che hai cucinato fa schifo, oppure
- Fa comunque schifo ma è anche bruciato.
Quando cucino il riso basmati non metto più acqua di quella necessaria per scolarla poi, come per cucinare la pasta, bensì introduco nella pentola solo la quantità di acqua che voglio venga assorbita dal riso, altrimenti viene annacquato. Solo che, man mano che l’acqua viene assorbita, a un certo punto scende sotto il livello del riso, e il fornello va spento quando il livello dell’acqua arriva a zero, pena incrostare il fondo della pentola di riso carbonizzato. In questa fase in cui solo parte del riso è allagato, il riso emerso prosegue la cottura in modo ragionevolmente omogeneo grazie proprio al vapore acqueo che satura l’interno della pentola mantenendo la temperatura e l’umidità uniforme, giacché il coperchio è chiuso.
Come dite? Che voi non cucinate il riso così? Ma non sarete mica… dei FREQUENTISTI??