Brier score vs. log score

23 Ottobre 2023

La società bene predilige il Brier score, ma i Veri Uomini usano il log score a mani nude. Fate la vostra scelta.

Per diventare bravi a scommettere sui mercati di predizione bisogna imparare a percepire intuitivamente le probabilità. Quando ti trovi di fronte a tanti eventi abbastanza simili che ti viene da considerarli ripetizioni, è facile calcolare la probabilità come casi favorevoli su casi totali. Ma quando bisogna scommettere su un evento che non ha una classe di riferimento chiara, per cui non sei in grado di trovare un insieme di “ripetizioni” già note, insomma un evento unico e irripetibile che o si verificherà oppure no, come si fa a dire qual è la probabilità? Ha davvero senso?

Di fatto quando prendi una decisione, hai nella testa un’idea intuitiva di quanto è verosimile che varie cose succedano, anche quando non sei sicuro. Ad esempio a briscola, se non ricordi esattamente tutte le carte uscite, puoi comunque avere un’idea vaga che probabilmente ci sono ancora dei carichi e giocare di conseguenza. Il problema è come tradurre una vaga sensazione che qualcosa possa essere vero in un numero tra 0% e 100%.

Risposta concreta: allenarsi per imparare a farlo. L’allenamento consiste nel fare “esercizi di calibrazione”. Essere calibrato significa, per esempio, che se prendi tutte le volte che hai detto che qualcosa aveva il 70% di probabilità di essere vero, effettivamente il 70% delle volte, né più né meno, avevi ragione. Anche se a priori non avresti saputo dire in quali occasioni la predizione si sarebbe avverata, la frazione totale deve corrispondere alla probabilità. Questo trucco risolve il problema di dire quali eventi contano come ripetizioni per fare il conto: raggruppi predizioni eterogenee, non in base al soggetto della predizione, ma in base alla probabilità soggettiva che ci assegni.

Gli esercizi di calibrazione quindi consistono nel provare ad assegnare probabilità a tante cose di cui non sei sicuro, e poi contare quante volte erano vere. In pratica dei siti forniscono giochi a quiz in cui anziché solo chiederti di scegliere una risposta, devi dire la probabilità che la risposta sia giusta, e alla fine nei risultati vedi quanto le probabilità che hai assegnato a naso corrispondono alla effettiva probabilità di azzeccarci.

In particolare, il punteggio del gioco non viene stabilito con il numero di risposte giuste, ma con una formula che combina le probabilità per premiare allo stesso tempo sia il fatto di azzeccare la risposta, che l’aver detto una probabilità sensata quando non l’azzecchi.

Come si calcola esattamente il punteggio?

Ci sono in linea di principio molti modi di farlo, ma i due più comuni solo il Brier score e il log score.

Il Brier score è $$S_B = \sum_{i=1}^N (P_i – V_i)^2,$$ dove $$\begin{align}N &= \text{numero di quiz,} \\ P_i &= \text{probabilità assegnata all’$i$-esimo quiz,} \\ V_i &= \text{risposta giusta dell’$i$-esimo quiz.}\end{align}$$ Esempio: se la settima domanda era “I gatti scoreggiano mentre dormono?”, hai risposto “30%”, e la risposta giusta era “SÌ”, allora $i = 7$, $P_i = 0.3$, $V_i=1$. Se invece la risposta giusta fosse stata “NO”, allora $V_i=0$. Il senso è che, dopo aver saputo la risposta, la probabilità a posteriori diventa o 0% o 100%, e calcolo la differenza tra essa e quella assegnata a priori. Più grande la differenza, peggio è, non importa in quale direzione, quindi elevo al quadrato per far venir fuori un numero positivo in ogni caso. Infine sommo i punteggi di tutte le domande. Ocio che questo punteggio è al contrario, più è grande più va male.

Il log score è $S_L = \log P(\text{verità})$. A prima vista dovrebbe sembrare un po’ strano che la formula non faccia riferimento in alcun modo alle domande, però c’è il trucco. Le probabilità indipendenti si moltiplicano, e $\log(xy) = \log x + \log y$, quindi $$\begin{align}S_L &= \log P(\text{verità}) \\ &= \log \big(P(\text{risposta giusta 1}) \cdot P(\text{risposta giusta 2}) \cdot \ldots\big) \\ &= \log P(\text{risposta giusta 1}) + \log P(\text{risposta giusta 2}) + \ldots \\ &= \sum_{i=1}^N \begin{cases} \log P_i & \text{se $V_i=1$,} \\ \log(1 – P_i) & \text{se $V_i=0$.}\end{cases}\end{align}$$ A parole: per ogni domanda, il punteggio è il logaritmo della probabilità che ho assegnato alla risposta giusta. Quindi se la risposta giusta era negativa, devo prendere la probabilità complementare $1 – P_i$.

Non ho definito direttamente il log score con la somma perché è importante notare che per spezzare la probabilità in quel modo bisogna che le domande siano indipendenti. Siccome le probabilità le stai assegnando soggettivamente, è soggettivo anche decidere che contino come indipendenti. Esempio: se una domanda è “tua mamma è P?” e quella dopo è “tua mamma S tutti i giorni?” allora, anche se non sei sicuro della risposta, le probabilità sono collegate: è più probabile che siano entrambe vere o entrambe false, piuttosto che una vera e l’altra falsa.

Poi in pratica si usa sempre la somma e si cerca di non fare domande troppo collegate, però il log score supporta anche il caso più generale. Il Brier score invece somma e basta, che in generale non ha senso. Esempio estremo: se ci fosse una domanda letteralmente ripetuta due volte, il Brier score la conterebbe doppio, mentre un log score fatto bene la conterebbe una volta sola, se a chi risponde fosse permesso di assegnare probabilità congiunte anziché solo separate domanda per domanda. Altro esempio estremo, ma più realistico: se anziché chiedere “A?” e poi “B?”, riformulo equivalentemente come “A & B?” e “A & non B?”, che a volte capita nei questionari, il Brier score può cambiare, mentre il log score (kosher) no.

In verità vi dico, il log score è l’unico modo possibile di calcolare il punteggio che rimane consistente se sottoposto a trucchi del genere, in cui cambio come pongo le domande per cercare di influenzare il gioco.

Allora usiamo il log score e bon? Ahhhh la vita vera è complicata.

Prima di tutto, nessuno ha voglia di mettersi a dare probabilità congiunte anziché separate. Di fronte a due domande $A$ e $B$, anziché solo $P(A)$ e $P(B)$, mi toccherebbe dire $P(A \& B)$, $P(A \& \neg B)$, $P(\neg A \& B)$, $P(\neg A \& \neg B)$.

E poi se andiamo a guardare i grafici delle due formule si vede un ulteriore inghippo, che se ricordate le proprietà del logaritmo forse avete già pensato:

La curva in alto è il Brier score, quella in basso il log score, su una singola domanda, assumendo che la risposta giusta sia affermativa cioè 1. Il log score tende a $-\infty$ se la probabilità si avvicina a zero. Cioè è possibile ricevere un punteggio arbitrariamente negativo. Invece alla peggio il Brier score dà zero. In generale in Brier score è sempre positivo, il log score sempre negativo. Il Brier score ti dà 0 se sbagli del tutto, 1 se azzecchi perfettamente; il log score ti dà 0 se azzecchi perfettamente, GAME OVER se sbagli male.

Il Brier score ti dà punti ogni volta che rispondi a una domanda. Se sei il più scarso del mondo non prendi punti.

Il log score ti toglie punti ogni volta che rispondi a una domanda, in base a quanto non sei perfetto. Se sei troppo scarso muori subito e basta.

Quindi in pratica se usi il log score fai piangere le femmine.

E quindi si usa il Brier score.

(Scherzo, di solito femmine non ce ne sono.)

Lascia un commento Annulla risposta