Concilio dei topini

Highlights of the theory (3)

Topino 106

Nella notte evado dalla quarantena e dispenso chiquadri a tutti i bravi cittadini che non sono usciti di casa!

Combined Neyman-Pearson Chi-square: An Improved Approximation to the Poisson-likelihood Chi-square

Tradizionalmente per i particellari la statistica consiste nel fare fit di istogrammi. In particelle le formule di statistica dei libri funzionano davvero, quindi i conteggi dei bin degli istogrammi sono descritti con delle poissoniane. ROOT mette a disposizione molte (troppe) funzioni per fare i fit degli istogrammi, tra cui anche il fit di massima likelihood certosino in cui i valori attesi dei bin sono veramente gli integrali sui bin e la distribuzione dei conteggi è veramente la poissoniana.

Però sticazzi io me ne frego e faccio un fit ai minimi quadrati perché non cio sbatti. L’articolo analizza in dettaglio quest’ultima opzione. Leggendolo ho imparato i nomi di vari chiquadri.

Il $\chi^2$ di Neyman è quello nabbo che il lettore, burino e ignorante, probabilmente userebbe: $$\chi^2_\text{Neyman} = \sum_i \frac {(x_i – \mu_i)^2} {x_i},$$ dove $\mu_i$ sono i valori attesi dei conteggi (il modello, i parametri insomma) e $x_i$ i conteggi misurati. Cioè: tutto gaussiano a varianza costante.

Il $\chi^2$ di Pearson è quello di quel momento di rivelazione in cui capisci che anche le varianze possono essere dei parametri e che tua madre, in realtà, non ti voleva. $$\chi^2_\text{Pearson} = \sum_i \frac {(x_i-\mu_i)^2} {\mu_i}.$$ L’acuto lettore avrà notato che $\mu_i$ è comparso al denominatore!

Il “chiquadro di Poisson” (bah) è il likelihood ratio fatto con la poissoniana. Non ve lo dico neanche perché ne ho abbastanza, e poi così finisce che qualsiasi cosa la chiami chiquadro, qui io di quadri non ne vedo (sì, ok, perché è la distribuzione asintotica, lettore retorico tornami a rompere quando Pearson sceso tra gli uomini e fatto carne ti avrà consegnato un $N=\infty$).

L’articolo fa notare che i chiquadri di Pearson e Neyman ti fanno sbagliare il fit in verso opposto, quindi li combina in un certo modo, non mi ricordo come si chiamava questa mossa con i Digimon, comunque viene $$\chi^2 = \sum_i \frac {(x_i – \mu_i)^2} {\frac 3 {\frac 1 {x_i} + \frac 2 {\mu_i}}}.$$ Questo è proprio ciò che mi piace negli articoli, una formula semplice, utile, generale, senza supercazzole, che funziona nella vita vera.

La cosa utile, a parte magari ottimizzare un po’ un fit, è che scrivere un problema come un problema di minimi quadrati ti può dare un sacco di power up. Secondo me i minimi quadrati sono a volte un po’ sottovalutati, quasi quasi ci scrivo un post.

On a curious bias arising when the $\sqrt{\chi^2/\nu}$ scaling prescription is first applied to a sub-sample of the individual results

CHIQUADRI! Ma lo sapevate che se usate una formula a cazzo, e poi la riusate ancora, il risultato è ancora più a cazzo di prima?

Non vorrei dare l’idea di voler sfottere l’articolo, perché è un articolo che, con una combinazione di umiltà e supponenza didattica, ti spiega in e out di edulcorare gli errori con il chiquadro ridotto, che posso anche prendere in giro (deh ci sono i CHIQUADRI), ma quando il fit non mi viene:

…eh adesso prendiamo i parametri, però solo quelli FISICI, no perché questi altri qui sono NUISANCE ce li ha messi mia sorella per darmi fastidio, e poi facciamo la media pesata con le covarianze tra il fit a basso qualcosa e il fit ad alto qualcosa, il fit globale sticazzi tanto non tornava, e poi moltiplico per $\sqrt{\chi^2/\text{dof}}$ perché l’ha detto il PDG non rompere, questo lo ripeto per tutte le configurazioni di pinguini del detector, e poi c’è tensione, c’è tensione di dico a un po’ di sigma, quindi again zio again $\sqrt{\chi^2/\text{dof}}$ e la massa del \bar piccione+ torna bam non posso aver sbagliato perché torna

Sul blog di Gelman questa cosa la chiama “giardino dei bivi”, cioè se ti impegni fai venire quello che ti pare, e dopo 4 anni di laboratori sono convintissimo che anche i fisici riescono a far venire quello gli pare se non li metti in coppia come i vigili urbani o i testimoni di Geova che uno controlla l’altro. L’articolo in questione dice di essere venuto fuori dalla misura di massa del $K\pm$, ma non ho presente il contesto.

Quantifying Observed Prior Impact

Quando spiegate come si fanno i fit e l’immancabile studente frequentista alza la mano e dice, con la sua vocina petulante da frequentista, «scusi, ma il priore cambia il risultato, come faccio a sapere quale priore mettere?», e anziché rispondere a una legittima domanda di un povero studente lo prendete in giro perché ha l’accento cartaginese.

Quando avete fatto un monte carlo, una regressione, moltiplicato un po’ di matrici, salvato su un file, aperto il file su windows e fatto un bootstrap, riaperto il bootstrap su linux e fatto un monte carlo adattivo di monte carli calibrati con monte carli, e alla fine minimizzato un chiquadro perché ci sta, e nel frattempo è scoppiato il coronavirus e il disco con i dati è rimasto in un ospizio a Casalpusterlengo, e il vostro reviewer vi chiede «e se per l’iperparametro AB-stocazzo metto un priore piatto al posto della gamma cosa viene?».

Quando siete dei bravi ricercatori e preregistrate gli studi e citate gli articoli dei vostri nemici e ci tenete davvero alla Scienza perché vi è caduta una mela in testa quando eravate piccoli e quindi volete sapere quanto conta il priore nel vostro fit.

Bene, non avete più nulla da temere! Con questa pratica guida in 12 formule saprete quantificare inequivocabilmente l’effetto del vostro priore. Il vostro capo non vi rispetta, e pensa che i vostri fit tornino solo grazie al priore? Rimettetelo al suo posto! Le donne cadranno ai vostri piedi se sapete calcolare il numero di campioni efficace del vostro priore RISPETTO A UN PRIORE BASELINE.

Deh, what a letdown. Però se siete bayesiani ve lo dovevate aspettare che alla fine c’era un altro priore.

Mi è piaciuto questo articolo perché in un campo pieno di formule a caso si mette lì e tira fuori la cosa sensata ragionando con calma. Lo scopo è calcolare un numero di campioni equivalente del priore, cioè: se fossi partito da un priore “non informativo”, quanti dati avrei dovuto aggiungere ai miei per avere lo stesso risultato che ho avuto con il mio priore “informativo”?

Quindi intanto bisogna tirare fuori un priore che secondo noi è non informativo, e lo chiamiamo baseline. Poi immaginiamo che ci siano dei ricercatori che hanno fatto l’esperimento con un numero $m$ di campioni in più rispetto ai nostri, e che come priore hanno usato il baseline. Come ci aspettiamo che siano distribuiti questi campioni degli altri ricercatori? Beh, siamo bayesiani quindi dal nostro punto di vista sono distribuiti secondo il posteriore ottenuto con i nostri dati e il nostro priore. Allora cerchiamo l’$m$ che rende più “simile” il nostro posteriore con quello ipotetico ottenuto da priore baseline + i nostri dati + $m$ dati estratti dal nostro posteriore.

Per precisare il “simile” usano la distanza di Wasserstein, perché

Intuitively, the Wasserstein distance captures the amount of “effort” needed to transform one probability distribution to another probability distribution, if we imagine the two probability densities as two piles of sands.

Molto poetico, non ho alcun dubbio che bisogna usare la distanza di Wasserstein.

Però, a pensarci bene: e se il priore baseline viene fuori che in realtà era più informativo del nostro? Quindi simmetrizzano la procedura e il numero di campioni efficaci del priore può venire negativo. Insomma, alla fine tutto questo è un modo per confrontare due priori.

Mi è venuto un dubbio: e se la distanza tra il posteriore effettivo e quelli simulati non è piccola in qualche senso nemmeno per l’$m$ che la minimizza? Cioè, magari non posso ottenere il mio posteriore partendo dal priore baseline e aggiungendo altri dati. Forse in qualche modo il problema viene risolto dal fatto che i dati simulati sono tirati fuori dal posteriore, e questo garantisce che riescono a far somigliare abbastanza il posteriore simulato a quello sorgente? Boh, avrei dovuto leggere l’articolo fino alla fine.

Holes in Bayesian Statistics

Questo articolo di Gelman l’ho letto perché l’ha postato sul suo blog. In effetti è un furbacchione, scrive un blog di chiacchiere statistiche perché “boh sì mi piace scrivere in modo libero sono uno spirito giocoso” e poi zac! quando vuole pubblicare un articolo ce lo infila e giù donne e citazioni.

(Scherzo, povero Gelman che se ne sta a New York di tutti i posti in cui poteva stare, a parte Casalpusterlengo non c’era di molto peggio.)

Il titolo è un bait perché Gelman è un bayesiano, anzi è uno di quelli che citi quando combatti con i frequentisti! Però da bravo scienziato si mette lì e si sforza di tirar fuori dei problemi. Non è che ci riesca granché, però l’articolo non diventa mai disonesto, non è che alla fine dice «Ah in realtà i metodi Bayesiani vedete che sono giusti non ne abbiamo trovati di buchi».

La cosa utile che ho imparato da questo articolo è che sì, se usi un priore piatto, “poco informativo”, “il solito”, “standard”, puoi mandare tutto a puttane perché il priore non ha senso.

La cosa inutile che ho imparato si può già intuire iniziando a leggere l’abstract:

(1) the usual rules of conditional probability fail in the quantum realm

Ebbene sì. L’argomento del cazzo che fa è quello che forse il lettore quantistico si è già immaginato: l’elettrone non è che una volta passa da una fenditura e una volta dall’altra. Non è che la disuguaglianza di Bell non è violata. Ma usando, appunto, la meccanica quantistica, non torna tutto? «Eh no zio non può essere mi sembra un problema troppo fondamentale quando ci penso». Il bello è che alla fine dell’articolo ti spiegano che in effetti non c’era nessun problema intrinseco con la probabilità nell’esperimento della doppia fenditura, però boh doppia personalità.

Nella sezione commenti del blog questo a scatenato un po’ di casino, con i primi $n$ messaggi che fanno notare questa cosa. Un tal Paul Hayes si è triggerato con la quantum probability, che non sapevo cos’era. Ha mandato tot link di post/articoli belli densi, e poi dopo le repliche ha scritto

Did you follow the links within the first link?

Ehm, zio? Quanto devono durare i dibattiti con te?

Conclusione della discussione: la probabilità quantistica non mi ha convinto per niente, e ho imparato che tal Holevo è un tizio che conta ma che è un cristo di frequentista come li facevano una volta.

A proposal to fight tornadoes with multiple connected balloons

L’articolo comincia con:

A tornado is an extremely dangerous weather condition with a violently rotating column of air extending from the base of a thunderstorm down to the ground [1, 2].

Citazione necessaria. Ma che cavolo avrà citato per dire cos’è un tornado? Presto detto:

[1]  https://www.weather.gov/safety/tornado.

[2]  https://en.wikipedia.org/wiki/Tornado.

Oh in effetti sono due fonti autorevoli, ci sono molti articoli accademici che mi ispirano meno fiducia di Wikipedia. La sua proposta per combattere i tornado è questa:

Nell’articolo analizza i vari dettagli, come:

Secondly, will the balloons be strong enough to survive the strong wind of a tornado? The strong wind of the tornado can break down trees and destroy houses. It might also break a balloon. However…

Questo articolo mi piace un sacco perché sembra un progetto fatto da un bambino, però non sarei in grado di smontarlo. Cioè, a occhio mi sembra che il tornado ti sbatterà via tutti i tuoi cavolo di palloncini, però magari con abbastanza palloncini funziona?

Confidence Sets and Hypothesis Testing in a Likelihood-Free Inference Setting

Questo articolo mi ha interessato perché un cruccio che ho da molto tempo è che non c’è in pratica un modo facile e generico di calcolare gli intervalli/insiemi di confidenza frequentisti.

Cioè, ormai con i programmini che trovi in giro, come PyMC3, Stan, Emcee, Symfit, per dire quelli che conosco, se c’ho un priore, un modello e dei dati, sbatto tutto dentro al programma, schiaccio il bottone, aspetto un po’ e viene fuori il posteriore. (Quasi, non funziona sempre tutto, però insomma parecchia roba complicata funziona senza sforzo.)

Se invece ho una likelihood e una statistica di ordinamento e voglio le regioni di confidenza al 50 %, 90 %, 95 % etc., allora o il problema è noto e qualche anima pia ha scritto un programma usabile senza leggersi 18 articoli che hanno scritto lui e i suoi amichetti, o il problema è 1D, o $N = \infty$ (sì vabbé come no), oppure mi attacco al cazzo.

Il metodo di questo articolo è un po’ specializzato perché si applica al caso in cui non riesco a calcolare la likelihood del modello ma riesco a fare una simulazione dei dati, però i casi in cui riesco a fare entrambi sono frequenti quindi mi aspetto che si applichi più in generale. Solo che di mezzo c’è da fare un machine learning che dipende dal tipo di dati/modello che usi, quindi insomma per quanto gli autori profondano rassicurazioni di semplicità e generalità immagino che per usarlo su un fit che mi serve dovrei perderci un sacco di tempo. O avere un tesista! Mi scordo sempre che la prospettiva di un prof è diversa.

Constructing a logic of plausible inference: a guide to Cox’s theorem

Il teorema di Cox è quello che dice che se siete frequentisti avete torto e non avete capito una sega.

Scherzo, è un teorema che fa una di quelle dimostrazioni matematiche in cui metti degli assiomi che la tua funzione ha i pinguini a destra, commuta, ha un paio di simmetre, e sbam viene che l’unica funzione possibile è la somma, e allora chiaramente la somma è l’unica cosa possibile che puoi fare in questo caso. Ma scusa da dove viene fuori che deve avere per forza i pinguini a destra? Non rompere.

Il teorema di Cox fa tutto ciò per la probabilità, cioè dice che la probabilità deve essere una funzione che manda proposizioni in numeri, mette un po’ di regole che somigliano alle regole della logica vero/falso togliendo la roba che costringe le cose a essere per forza o vere o false, e viene fuori che l’unica cosa possibile è la probabilità così come la conosciamo.

Se non ricordo male Cox era un fisico e aveva scritto una dimostrazione chiara pulita ed elegante. Poi sono arrivati i matematici, e hanno spaccato su tutto. Questo articolo fa tutto in modo meticoloso, ci trovate dentro insiemi densi, ipotesi (blah), riferimenti a libroni di matematica, però ha anche il pregio di essere comunque leggibile se non conoscete già l’argomento, quindi ve lo consiglio se vi interessa sto teorema di Cox.

Gaussian Processes for Machine Learning

Questo è un libro che parla di processi gaussiani.

PERCHÉ CRISTO NESSUNO MI AVEVA MAI DETTO CHE ESISTONO I PROCESSI GAUSSIANI? Cos’è, una tecnica segreta? Se penso a tutte le volte che mi serviva un fit non parametrico, e giù segate e roba strana, e a quanto pare i processi gaussiani esistono da 80 anni. Pazienza: adesso so fare i processi gaussiani. Ci ho fatto la relazione sul finite size scaling del modello di Ising quantistico per l’esame di metodi numerici. Caspita che goduria.

In breve: i processi gaussiani sono una tecnica di fit in cui i parametri sono intere funzioni anziché numerelli solitari. Però per magia la soluzione viene analitica. Per fare ciò si mette un priore gaussiano sullo spazio delle funzioni OPS! Qualcuno ha detto PRIORE? Non sarà mica una tecnica BAYESIANA? Non vorrei che qualche infedele usasse tecniche del genere nel nostro amato ateneo! Forse capisco perché nessuno me li ha mai insegnati.

Commenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

© 2024 Concilio dei topini Torna sù