|
Statistica
Statistica Ramo della matematica che studia i
metodi per raccogliere, organizzare e analizzare un
insieme di dati numerici, la cui variazione è
influenzata da cause diverse, con lo scopo sia di
descrivere le caratteristiche del fenomeno a cui i
dati si riferiscono, sia di dedurre, ove possibile,
le leggi generali che lo regolano.
La statistica si suddivide in statistica descrittiva
o deduttiva e in statistica induttiva o inferenza
statistica: nel primo caso si studiano solo i metodi
per descrivere e analizzare le caratteristiche di un
evento o di un gruppo di oggetti o individui, senza
dedurre (inferire) conclusioni generali, valide per
un gruppo più ampio; nel secondo, invece, si
studiano le condizioni per cui le conclusioni
dedotte dall’analisi statistica di un campione sono
valide in casi più generali.
Il termine “statistica” fu probabilmente usato per
la prima volta nel 1589 dall’italiano Gerolamo
Ghilini, per indicare la branca delle scienze
politiche che si occupava della descrizione dei vari
aspetti caratteristici di uno stato; tuttavia i
primi esempi di registrazioni statistiche possono
essere rintracciati nelle più antiche forme di
civiltà. Già prima del 3000 a.C. i babilonesi
riportavano su tavolette d’argilla i dati sui
raccolti agricoli o sul baratto e la vendita di
prodotti. Gli egizi analizzavano le risorse umane e
i materiali a loro disposizione prima di dare inizio
alla costruzione delle piramidi.
I libri biblici dei Numeri e delle Cronache sono, in
parte, studi di carattere statistico: il primo
contiene due censimenti distinti degli israeliti; il
secondo descrive le risorse materiali di diverse
tribù ebraiche. Simili registrazioni numeriche
esistevano anche in Cina prima del 2000 a.C., e fin
dal 594 a.C. gli antichi greci usavano i dati dei
censimenti per organizzare il sistema di tassazione.
Durante l’impero romano furono raccolti e analizzati
dati esaurienti sulla popolazione, l’estensione e le
ricchezze dei territori controllati.
Nel corso del Medioevo, in Europa, vennero indetti
ampi censimenti. Intorno al 760 i regnanti carolingi
Pipino il Breve e Carlo Magno misero a punto le
stime dei possedimenti ecclesiastici. Dopo la
conquista dell’Inghilterra da parte dei normanni,
Guglielmo I ordinò un censimento che fu eseguito nel
1086; i dati raccolti furono registrati nel
Domesday Book. La registrazione
anagrafica di nascite e morti si inaugurò in
Inghilterra all’inizio del XVI secolo, e nel 1662 fu
pubblicato da John Graunt il primo studio sulla
popolazione, Natural and Political Observations
Made Upon the Bills of Mortality (Osservazioni
naturalistiche e politiche fatte sui bollettini dei
decessi).
Uno studio simile sui decessi eseguito nel 1691 a
Breslavia, in Germania, venne usato dall’astronomo
Edmund Halley come base per le prime tavole di
mortalità. Nel XIX secolo, con l’applicazione del
metodo scientifico a tutti i fenomeni riguardanti le
scienze naturali e sociali, si riconobbe l’esigenza
di limitare la registrazione delle informazioni ai
soli dati numerici, al fine di evitare l’ambiguità
delle descrizioni verbali.
Attualmente la statistica fornisce validi metodi per
raccogliere, correlare e analizzare dati di natura
economica, politica, sociale, psicologica, biologica
e fisica. L’attività di chi si occupa di statistica
non è più limitata alla mera raccolta e tabulazione
dei dati, ma consiste principalmente nella loro
interpretazione, che viene condotta anche sulla base
della teoria delle probabilità. I dati, infatti,
possono essere opportunamente interpolati dalle
leggi di distribuzione di probabilità, e i risultati
di questa operazione possono essere usati a loro
volta per calcoli statistici. La teoria delle
probabilità interviene anche nella verifica della
verosimiglianza delle conclusioni tratte mediante
metodi statistici, e per indicare il tipo e il
numero di informazioni necessarie all’analisi di un
particolare problema.
Le “materie prime” della statistica sono i dati
numerici ottenuti dalla misurazione o dal conteggio
degli elementi in studio. Naturalmente esistono
criteri e precauzioni da seguire nella fase di
raccolta dei dati, in modo che sia garantita la
completezza e l’accuratezza delle informazioni che
ne conseguiranno.
Il primo problema che si presenta allo statistico è
dunque di stabilire quali e quanti dati raccogliere.
Per eseguire un censimento demografico, o anche per
contare il numero di collisioni al secondo tra le
molecole di un gas, infatti, sarebbe necessaria una
rilevazione completa, tuttavia nella maggior parte
dei casi vi sono ragioni pratiche che impediscono di
raccogliere dati riguardanti l’intera “popolazione”,
ovvero l’insieme completo sul quale deve essere
condotto lo studio statistico. Si presenta quindi il
problema di determinare un campione
“rappresentativo” di tutta la popolazione, in modo
che dall’analisi di quest’ultimo si possano trarre
conclusioni accettabili per insiemi più ampi.
Per dedurre una legge fisica, biologica o sociale,
lo statistico può iniziare ad analizzare un
determinato insieme di dati, e in seguito
modificarlo in base ai risultati ottenuti. Ad
esempio, nei primi studi sulla crescita delle
popolazioni, le previsioni venivano condotte in base
al confronto tra il numero di nascite e di morti in
un dato periodo. Gli statistici, tuttavia, dovettero
presto riconoscere che la crescita di una
popolazione dipende dal numero delle nascite, a
prescindere da quello delle morti, e in base a
questa considerazione adeguarono il metodo di
rilevazione dei dati, limitandosi a contare il
numero di nascite annue su campioni di popolazione
composti da 1000 individui ciascuno. Quando le
previsioni ottenute con questo sistema si rivelarono
sbagliate, si dovettero individuare altri fattori
significativi che incidessero sulla crescita delle
popolazioni.
Poiché il numero di nascite possibili dipende dal
numero di donne piuttosto che dal numero generico di
individui della popolazione, e poiché il periodo in
cui le donne possono avere figli è limitato a una
parte ridotta della vita, si passò perciò a
raccogliere i dati del numero di nascite annue su
campioni di 1000 donne in età feconda. Infatti
l’eccesso del numero di nascite rispetto a quello
dei decessi fornisce solo una stima approssimata
della crescita di una popolazione nel passato; il
numero di nascite, raccolto su un campione di 1000
persone, dà invece una stima della proporzione di
crescita della popolazione nel periodo stesso; il
numero di nascite preso su un campione di 1000 donne
in età feconda, infine, permette di predire la
futura crescita della popolazione.
|
4 |
|
TABULAZIONE E PRESENTAZIONE DEI DATI |
I dati statistici raccolti devono essere ordinati,
tabulati e presentati in modo da permetterne
un’analisi e un’interpretazione significativa. Ad
esempio, supponiamo di voler studiare la
distribuzione dei voti in centesimi di un esame in
una classe di trenta studenti. Innanzitutto i voti
devono essere riscritti in ordine crescente: 30, 35,
43, 52, 61, 65, 65, 65, 68, 70, 72, 72, 73, 75, 75,
76, 77, 78, 78, 80, 83, 85, 88, 88, 90, 91, 96, 97,
100, 100. Questa progressione permette di osservare
immediatamente che il massimo è 100, il minimo è 30,
e che l’intervallo compreso tra massimo e minimo,
cioè il cosiddetto campo di variazione, è uguale a
70.
In un grafico delle frequenze cumulative, come
quello di figura 1, i voti vengono riportati
sull’asse orizzontale, mentre sulla sinistra
dell’asse verticale è riportato in modo cumulativo
il numero di volte con cui ciascun voto ricorre, e
sulla destra la percentuale del totale
corrispondente a tale numero. In questo modo ogni
punto del grafico rappresenta il numero di studenti
che hanno ottenuto un determinato voto, o un voto a
esso inferiore. Ad esempio, il punto A corrisponde
al voto 72; leggendo sull’asse verticale, è evidente
che ci sono 12 voti, ossia il 40% del totale, minori
o uguali a 72.
Se si vogliono analizzare i voti di dieci classi,
ciascuna composta da trenta studenti, riportati in
quattro diversi esami, si dovranno rappresentare ben
1200 voti: questo è un numero troppo grande per
poter trovare spazio in un grafico simile a quello
di figura 1. Si dividono allora i dati in “gruppi
significativi” detti classi o intervalli. Come
esempio consideriamo la tabella di distribuzione
delle frequenze; i 1200 voti vengono raggruppati in
dieci intervalli distinti, elencati nella colonna
(a), e il numero reale di voti in un intervallo,
detto frequenza dell’intervallo, viene riportato
nella colonna (c). I valori che definiscono gli
estremi dell’intervallo, detti limiti
dell’intervallo, sono preferibilmente scelti in modo
che gli intervalli siano tutti di uguale ampiezza, e
che i punti medi siano numeri semplici.
Ancora con riferimento alla tabella, un voto come 87
sarà compreso nell’intervallo 80-90; un voto di
confine come 90 può essere contato sia
nell’intervallo inferiore che in quello superiore.
La frequenza relativa, riportata in colonna (d), è
il rapporto tra la frequenza di un intervallo e il
conteggio totale. La frequenza cumulata, colonna
(e), rappresenta il numero di studenti che hanno
ricevuto un voto inferiore a quelli dell’intervallo
successivo; così, il numero di studenti con voti
inferiori a 30 si ottiene sommando le frequenze
della colonna (c) dei primi tre intervalli, e vale
53. La frequenza relativa cumulata, colonna (f), è
il rapporto tra la frequenza cumulata e il numero
totale di voti.
I dati di una tabella di distribuzione delle
frequenze possono essere rappresentati graficamente
in un istogramma delle frequenze, come in figura 2,
oppure con un tratto di curva continuo, come in
figura 3. L’istogramma consiste in una serie di
rettangoli con base uguale alla misura degli
intervalli e altezza proporzionale alla frequenza
del relativo intervallo. Una curva come quella di
figura 3 si ottiene unendo i punti medi degli
intervalli di un istogramma delle frequenze
cumulative.
Spesso sui giornali o sulle riviste compaiono
rappresentazioni grafiche diverse di dati
statistici; particolarmente utilizzati sono, ad
esempio, gli ortogrammi, diagrammi di superficie nei
quali il diverso valore di un fenomeno è
rappresentato da figure geometriche, preferibilmente
rettangoli, di area diversa; i diagrammi a righe, in
cui si utilizzano segmenti verticali o orizzontali,
di lunghezza proporzionale al valore del fenomeno
analizzato; gli aerogrammi a settori circolari, in
cui la superficie di un cerchio viene suddivisa in
settori circolari, di area proporzionale alla
percentuale del totale coperta dalle varie
espressioni del fenomeno in esame.
Dopo aver raccolto e ordinato i dati, si procede
alla fase di analisi, che consiste nel calcolo di
alcuni parametri significativi, che esprimono in
maniera sintetica le caratteristiche peculiari del
campione esaminato.
L’analisi comincia con il calcolo del valore medio,
un numero particolarmente significativo, che in un
certo senso “rappresenta” o “riassume” tutti i
valori assunti dalla variabile in esame. Il valore
medio rappresenta un indice di posizione, e nella
maggior parte dei casi tende a cadere centralmente,
all’interno dell’insieme di dati, disposti in ordine
crescente o decrescente.
Supponiamo che x1, x2,
…, xn siano i dati di una
statistica. La misura significativa usata più spesso
è la semplice media aritmetica, indicata dal simbolo
, e data dalla somma dei singoli dati divisa per il
loro numero, n:
Nell’espressione qui sopra il simbolo Ó indica
l’operazione di somma di tutti i valori. Se i valori
x sono raggruppati in k intervalli, in
cui m1, m2 …, mk
sono i punti medi e f1, f2, …,
fk, le rispettive frequenze, la media
aritmetica è data da
con i = 1, 2, …, k.
Due diverse misure dell’indice di posizione sono la
mediana e la moda. Per calcolare la mediana occorre
dapprima riordinare gli n valori x in
modo crescente o decrescente; se n è dispari,
essa è il valore centrale di x; se n è
pari, è la media dei due valori che separano gli
n valori in due parti uguali. La moda invece è
il valore di x che ricorre più
frequentemente. Se due o più valori distinti di x
ricorrono con la stessa frequenza, ma non ce n’è
alcuno che abbia una frequenza maggiore, si può dire
che l’insieme degli x non ammette moda, o
equivalentemente che è bimodale, e le due mode sono
allora i due valori di x più frequenti.
|
5.2 |
|
Indice di dispersione |
I dati raccolti possono mostrare la tendenza a
raggrupparsi intorno a un solo valore, che in genere
coincide con il valore medio, oppure possono essere
“sparpagliati” su tutto l’intervallo dei valori
possibili. L’indice di dispersione, o di
variabilità, di una distribuzione di frequenze
fornisce allora una indicazione di come sono
distribuiti i dati, ovvero di quanto si discostano
dal valore medio. Una possibile misura della
dispersione intorno al valore medio consiste nella
valutazione della differenza tra due dati
percentili, solitamente il 25° e il 75° ( il p-esimo
dato percentile è quel numero tale che il p %
delle misure risulta minore o uguale a esso; in
particolare, il 25° e il 75° dato percentile sono
detti rispettivamente il dato quartile inferiore e
superiore).
Un’altra conveniente misura della variabilità di una
distribuzione è la deviazione standard.
Due fenomeni di natura fisica, biologica o sociale
sono positivamente correlati quando subiscono
variazioni proporzionali e simultanee a causa del
medesimo fattore esterno. Se uno dei due aumenta
nella stessa proporzione in cui l’altro diminuisce,
essi si dicono negativamente correlati. Il grado di
correlazione si calcola applicando un opportuno
coefficiente ai dati dei due fenomeni. Il
coefficiente di correlazione più comune è dato da
in cui x è la deviazione di una variabile
dalla sua media, y è la deviazione dell’altra
variabile dalla sua media, e N è il numero
totale di casi della serie. A una correlazione
positiva perfetta tra le due variabili corrisponde
un coefficiente +1; a una correlazione negativa
perfetta corrisponde il coefficiente -1; mentre una
totale assenza di correlazione è rappresentata dal
coefficiente 0. Così, 0,89 indica un valore di alta
correlazione positiva, -0,76 un’alta correlazione
negativa, e 0,13 una bassa correlazione positiva.
Un modello matematico è un’idealizzazione matematica
di un fenomeno fisico, biologico o sociale, che si
traduce in un sistema, una proposizione, una formula
o un’equazione matematica. Così, un dado ideale,
perfettamente equilibrato, che possa essere lanciato
in modo assolutamente casuale, rappresenta un
modello matematico per un dado fisico reale. La
probabilità che in un numero n di lanci di un
dado ideale il numero 6 esca k volte è data
dall’espressione
in cui (À) è il simbolo
di coefficiente binomiale e vale
Si può allora mettere alla prova la “bontà” di un
dado reale lanciandolo più volte, e confrontando i
risultati sperimentali con quelli del modello di
dado ideale.
Come esempio di un modello matematico più complesso,
si supponga di avere effettuato molte serie di
misure: ad esempio, il numero di volte in cui si
ottiene la cifra 6 in n lanci di un dado; il
peso di N fagioli scelti a caso da un
sacchetto; il valore della pressione barometrica
ottenuto da studenti diversi con lo stesso
barometro. In tutti questi casi, i valori osservati
hanno distribuzioni di frequenze estremamente
simili. Si può allora adottare un modello matematico
che è un prototipo, o un’idealizzazione, di queste
distribuzioni così simili tra loro. Se si assume che
il numero di osservazioni, o di dati, sia molto
grande, idealmente infinito, la funzione che
rappresenta la distribuzione delle frequenze è
dove e è la base dei logaritmi naturali, e
vale circa 2,7, mentre y rappresenta la
frequenza del valore x. Il grafico di questa
funzione (figura 4) è la curva a campana chiamata
distribuzione di probabilità normale, o gaussiana.
Essa riveste un’enorme importanza nella statistica e
nella teoria delle probabilità, dal momento che
tutti gli eventi in cui intervengono fenomeni
casuali si distribuiscono intorno al valore medio
secondo tale curva.
Elementi di statistica e probabilita (in formato pdf)
|