Highlights of the Theory

27 Gennaio 2020

Il titolo di questo post l’ho preso dalla classifica di snarXiv. Quando ho messo su questo blog ho scoperto RSS e ovviamente la prima cosa che ho fatto è stato attaccarmi ai feed di statistica di arXiv. Questo ha aumentato notevolmente il numero di articoli a caso che leggo, quindi per sfogarmi ho deciso di commentare brevemente tutto quello che leggo.

Review of High-Quality Random Number Generators

Questa review parla solo di generatori pseudocasuali di qualità. Cioè: parla solo di RANLUX e accenna che magari MIXMAX va bene ma è meglio RANLUX. Insomma una review di parte… Quello che intendono è che RANLUX è il migliore per i Monte Carlo.

La cosa più interessante che mi ha fatto scoprire è RANLUX++. RANLUX è un buon generatore ma è lento rispetto ad esempio all’onnipresente Mersenne Twister. Questo perché, per generare campioni indipendenti, RANLUX semplicemente per ogni numero che sputa fuori ne scarta centinaia.

Tuttavia RANLUX si dimostra essere equivalente a un LCG con un moltiplicatore da circa 500 bit. Cioè: la sequenza di numeri generati da RANLUX si può calcolare come $x_{k+1} = ax_k \bmod m$ dove $a$ è all’incirca $10^{150}$, più il fatto che tiene un solo $x_k$ ogni tot.

Fare moltiplicazioni con numeri da 500 bit è lento quindi questo non sembra essere molto utile. Tuttavia con un LCG se si scartano dei numeri si può calcolare il risultato in un passaggio solo: $x_{k+n} = (a^n \bmod m) x_k \bmod m$. Ancora non basterebbe se non fosse che un tizio ha notato che con le istruzioni dei processori moderni le moltiplicazioni con numeri grossi si possono fare più veloce.

Oktoberfest Food Dataset

È un dataset per allenare classificatori a riconoscere birre e würstel. Se vi capitasse.

Storm modulation is feasible through a strategic use of air conditioners

Questi giapponesi simulano una tempesta su Hiroshima, mimando un certo evento atmosferico realmente accaduto, e guardano quanto si riduce la pioggia tenendo accesi tutti i condizionatori. Per simulare l’effetto dei condizionatori quello che fanno è calcolare quanta umidità sono in grado di rimuovere dall’aria (stimano 1 kg/ora di acqua) e la sottraggono dall’umidità nella bassa atmosfera.

How probabilities came to be objective and subjective

L’ho beccato da un post di Gelman. Dice che nel 1840 hanno cominciato a pensare che le probabilità potessero essere in qualche senso oggettive e che questo è collegato all’emergere delle parole “oggettivo” e “soggettivo” con il significato moderno proprio in quel periodo.

Branching epistemic uncertainty and thickness of tails

Questo articolo aveva l’aria di essere un po’ fuffa però mi incuriosiva, è anche divertente l’intestazione “FAT TAILS STATISTICAL PROJECT”. Parlano di considerare l’errore sull’errore sull’errore sull’errore… etc. Fanno molte supercazzole, che onestamente non ho capito granché, ma in concreto quello che tirano fuori è che se io ho una cosa che considero gaussiana tirata fuori con il solito metodo media $\pm$ varianza, in realtà la distribuzione è $$ g(x,\lambda,S) = \int_0^\infty \mathrm{d}\lambda \frac {e^{-\frac {\log^2\lambda + \lambda S^2x^2} {2 S^2}}} {2\pi\sqrt{\lambda}S}, $$ dove $\lambda = 1/\sigma^2$ e $S^2$ è la somma di varianza sull’errore + varianza sull’errore sull’errore + etc. Ma aspetta: $\lambda$ perché sta a anche sinistra? Non è la variabile di integrazione?

Comunque prima fanno un’altro errore palese:

To account for the error in estimating $\sigma$, we can introduce a density $f_1(\hat\sigma; \bar\sigma, \sigma_1)$ over $\mathbb R+$, where $\sigma_1$ represents the scale parameter of $\hat\sigma$ under $f_1$, and $\bar\sigma_1 = \sigma$ its expected value. We are thus assuming that $\hat\sigma$ is an unbiased estimator of $\sigma$, but our treatment could also be adapted to the weaker case of consistency.

E poi dicono che allora la densità sulla variabile non è $\phi(x)$ bensì $$ g_1(x) = \int_0^\infty \mathrm{d}\hat\sigma\, \phi(x;\mu;\hat\sigma) f_1(\hat\sigma;\bar\sigma_1,\sigma_1). $$ Poi, se l’errore non è già evidente, rimarcano subito

Depending on the choice of $f_1$, that in Bayesian terms would define an a priori, $g_1(x)$ can take different functional forms.

Insomma io speravo in una bella sega frequentista sugli errori degli errori degli errori etc. ma qui ci sono già a prima vista troppi errori per fidarsi del risultato. Dunque la conclusione è: se sbagli a usare la statistica, le distribuzioni ti vengono con code pesanti! Mi torna.

Beyond power calculations to a broader design analysis, prospective or retrospective, using external information

Dicono che in un test d’ipotesi dei soliti in cui bisogna controllare se una misura $x$ è lontana più di tot sigma da zero, oltre a sapere l’errore di tipo I (probabilità che mi venga lontano da zero anche se in realtà è zero) e l’errore di tipo II (probabilità che mi venga vicino a zero a seconda di quanto è effettivamente lontano), bisognerebbe calcolare anche l’errore di tipo M (di quanto sovrastimo in media $x$ nei casi in cui mi viene che è lontano da zero oltre la soglia che ho fissato, a seconda di quanto è effettivamente lontano da zero), e l’errore di tipo S (qual è la probabilità che, quando mi viene lontano da zero, sia però dal lato sbagliato).

Il senso è che se io faccio una misura difficile in cui mi aspetto che l’effetto sia piccolo rispetto all’incertezza, allora nei rari ma non troppo casi in cui $x$ supera per caso la soglia che ho messo, verrà molto più grosso dell’effetto vero, e anzi potrebbe venire pure di segno sbagliato con probabilità ragionevole.

A prima vista questa cosa non mi è sembrata molto sensata perché di solito si fissa l’errore di tipo I abbastanza piccolo in modo che capiti abbastanza raramente di trovare un risultato significativo dove non c’è. Insomma, decido quanto sono disposto a rischiare di dire una minchiata, e poi mi butto.

Però il fatto è che mentre in fisica si mette errore di tipo I = $10^{-7}$ circa, in altri campi si usa 0.05, o 0.01, insomma non troppo piccolo. 0.05 vuol dire che una ricerca su venti delle ricerche che cercano qualcosa che in realtà non esiste, dicono che esiste, e quindi capita. E in questi casi succede che, anziché dire «ok, non ci aspettavamo che ci fosse nulla, e invece c’è questo effetto, però non fidiamoci troppo perché c’era una probabilità non trascurabile che si vedesse lo stesso», c’è chi dice «ok, abbiamo trovato qualcosa che non ci aspettavamo di vedere, quindi era difficile da vedere, quindi siamo bravi!». Quindi questi errori di tipo M e S sarebbero un modo per educare la gente alla prudenza.

Insomma ma questi pseudoscienziati non possono mettere $\alpha = 10^{-7}$ anche loro, così evitano queste grane? Scherzo a insultarli, alla fine bisogna sempre capire quanto è importante essere sicuri delle cose piuttosto che esplorare velocemente nuove strade. O quanto bisogna vendere fuffa per mandare avanti la baracca.

Teaching Bayes to Graduate Students in Political Science, Sociology, Public Health, Education, Economics, . . .

Un articolo di Gelman sulla didattica, dopo cinque anni che seguo corsi sono molto sensibile all’argomento. Il passaggio che mi ha colpito di più:

Different instructors have different styles. After 20 years of teaching, I’ve come to the conclusion that teaching skills works better than teaching concepts (or, should I say, trying to teach concepts). This is related to the fundamental insight that you can’t “cover” material in a course; students ultimately have to teach themselves how to do things. No easy answers here, but I can certainly believe there are better and worse ways to proceed. I’ve found that the teaching tricks that work well with undergraduates (in particular, frequently stopping the class and having students work together in pairs) work with graduate students as well. In general, I think teaching works best when you have a good script to follow—not just a good textbook, but an hour-by-hour lesson plan. Unfortunately, these are hard to come by in statistics. I guess I should prepare such things based on my own textbooks.

Il lavorare in coppia mi ricorda quello che diceva il prof di laboratorio al terzo anno: la gente lavora bene in coppia. In tre sono già troppi, di più non si combina niente. Ho avuto l’impressione che fosse vero, però mi chiedo se questo non dipenda dal fatto che in Italia l’educazione non è incentrata sul far lavorare insieme le persone, magari in posti con sistemi educativi più moderni la gente arriva all’università che è capace di lavorare in gruppo efficacemente.

Sul fatto che le lezioni vengano bene quando te le sei preparate totalmente d’accordo! Si nota un sacco la differenza tra i prof che le preparano e quelli che improvvisano o comunque non le preparano in dettaglio.

L’insegnare abilità anziché concetti mi lascia perplesso. Io personalmente ho sempre apprezzato gli insegnanti capaci di insegnare concetti complessi chiaramente, e ho sempre disprezzato quelli che capisci solo come fare gli esercizi ma non il senso. Magari non è proprio quello che intende lui. Magari in fisica è più importante capire bene concetti astratti piuttosto che in un corso di statistica applicata. (Mi viene in mente la citazione di Gelman «Statistics is applied statistics».)

Rank-normalization, folding, and localization: An improved $\hat R$ for assessing convergence of MCMC

Non avrei mai pensato che dando un’occhio bovinamente a tutto quello che sbuca dall’arXiv mi capitasse qualcosa di utile prima di stufarmi, e invece ho trovato quasi subito questo articolo qui.

Danno una sistemata alla $\hat R$ di Gelman-Rubin, una statistica che serve per controllare se una catena di Markov ha raggiunto la convergenza, per farle diagnosticare qualche problema che con la vecchia definizione passa inosservato.

Una cosa che mi è venuta in mente è: quando mi capitano due elenchi di numeri reali e devo controllare se hanno la stessa distribuzione la prima cosa che mi viene in mente è fare un test di Kolmogorov-Smirnov. Se però sono l’output di una catena di Markov vado subito a usare la $\hat R$. Perché?

Un’altra cosa di cui sarei curioso è come si controlla la convergenza con cose che non si esprimono bene con un numero reale. Inoltre qui per far funzionare la $\hat R$ su distribuzioni con code pesanti usano il rango normalizzato, che però non credo abbia equivalenti multidimensionali, mentre la $\hat R$ “tradizionale” si generalizza in più dimensioni.

Riemannian Manifold Hamiltonian Monte Carlo

A General Metric for Riemannian Manifold Hamiltonian Monte Carlo

Il primo articolo modifica l’Hybrid Monte Carlo cambiando la metrica dei momenti a ogni passo anziché tenerne una fissa. La metrica che usa è la matrice di informazione di Fisher, che si calcola facendo il valore atteso di una certa matrice. Ma… per calcolare valori attesi non devo aver già fatto il Monte Carlo? Infatti poi fanno solo esempi in cui si calcola analiticamente o in cui c’è un’approssimazione analitica.

Il secondo articolo risolve il problema così: la matrice di informazione di Fisher è il valore atteso dell’hessiana del logaritmo della likelihood. Non si può usare direttamente l’hessiana perché non è detto che sia definita positiva. Però anziché prendere il valore atteso si può più semplicemente usare la funzione softabs che la rende definita positiva. La funzione softabs sugli scalari è un’approssimazione liscia del valore assoluto; sulle matrici lascia invariati gli autovettori ma applica il softabs scalare agli autovalori.

Lascia un commento Annulla risposta