Unità 10
Introduzione alla statistica induttiva: la stima statistica

Gli argomenti che saranno trattati in questa unità sono:

  LA STATISTICA INDUTTIVA
  I TEST DI IPOTESI NON PARAMETRICHE: TROVARE DELLE SISTEMATICITÀ A PARTIRE DA UN CAMPIONE
  I TEST DI IPOTESI PARAMETRICHE: CONTROLLARE IL VALORE DI UN PARAMETRO A PARTIRE DA UN CAMPIONE
  LA STIMA STATISTICA
  GLI INTERVALLI DI FIDUCIA
  INTERVALLO DI FIDUCIA PER LA MEDIA, NEL CASO SI CONOSCA LO SCARTO TIPO DELLA POPOLAZIONE
  INTERVALLO DI FIDUCIA PER LA MEDIA CON SCARTO TIPO IGNOTO (CAMPIONI CON MENO DI 30 CASI)
 INTERVALLO DI FIDUCIA PER LA MEDIA CON SCARTO TIPO IGNOTO (CAMPIONI CON PIÙ DI 30 CASI)
  INTERVALLO DI FIDUCIA PER UNA PROPORZIONE (CAMPIONE CON PIÙ DI 30 CASI)





  La statistica induttiva

L'utilizzo acritico delle tecniche messe a disposizione dalla statistica induttiva (stima di parametri statistici, test di ipotesi parametriche e non parametriche) ha provocato, non a torto, una certa sfiducia nelle stesse (vedere Marradi, 1989). E' necessario pertanto che chi si accinge ad adottare queste tecniche nella pratica della ricerca sociale abbia una solida conoscenza teorica delle possibilità e dei limiti di tali tecniche allo scopo di utilizzare correttamente l'informazione che emerge dai dati.
Il punto di partenza di questa analisi è il dato empirico a nostra disposizione. La prima grossa suddivisione è tra studi condotti su campioni e studi condotti su intere popolazioni. Si noti che non obbligatoriamente una popolazione è qualcosa di molto grande: se studiamo una comunità di ex tossicodipendenti è molto probabile che si possa effettuare lo studio sull'intera popolazione, ovvero su tutti i membri della comunità. In questo caso la statistica induttiva non entra in gioco, le conclusioni ottenute sono deterministiche e non probabilistiche. Essa entra in gioco in tutti quei casi dove per svariati motivi, dall'esiguità dei fondi per la ricerca, al grande numero di soggetti nella popolazione, alla difficoltà di reperire tutti i soggetti della popolazione, alla composizione della popolazione che varia frequentemente, non è possibile condurre l'indagine sull'intera popolazione.
Il primo passo verso una corretta applicazione della statistica induttiva è una corretta procedura di campionamento.Tale operazione consiste nell'estrarre dalla popolazione (l'universo campionario) un certo numero di casi in modo da ottenere un insieme più piccolo di soggetti che riproduce esattamente la popolazione per tutte le proprietà su di essa misurabili. Un siffatto campione si dice campione rappresentativo e i risultati ottenuti a partire da esso sono generalizzabili, cioè dotati di validità esterna. La creazione di un campione rappresentativo pone però alcuni problemi. Supponiamo che la popolazione sia composta da individui (non necessariamente persone) esattamente uguali. Seguendo l'esempio di Marradi (1989, p. 69) se la popolazione che devo studiare è quella degli atomi di azoto, che sono tutti uguali tra di loro, mi basterà studiare un solo atomo di azoto e le considerazioni fatte per questo atomo varranno per tutti gli altri. Qui evidentemente la statistica induttiva non serve, dato che l'eterogeneità della mia popolazione è nulla. All'estremo opposto, se io devo studiare una popolazione di individui tutti diversi tra di loro (massima eterogeneità) l'operazione di campionamento mi introdurrà inevitabilmente degli errori, e la statistica induttiva mi darà un modo per quantificarli.

La casualità nell'estrazione del campione garantisce l'assenza di distorsioni sistematiche, ma non garantisce la rappresentatività. Un campione casuale che cade nelle "code" della distribuzione campionaria (vedere unità 11) non si puņ considerare rappresentativo. Il motivo per cui spesso si è confuso il campione casuale con un campione rappresentativo è che in assenza di distorsioni sistematiche nel campionamento la probabilità di "pescare" un campione dalla parte centrale della distribuzione è molto maggiore di quella di pescarlo dalle "code", ed è quantificabile per mezzo della distribuzione campionaria.

La miglior soluzione al problema della rappresentatività del campione nella ricerca sociale è quindi non campionare, ma lavorare su tutte le unità della popolazione. In tutti i casi in cui questo non è possibile (la maggior parte dei problemi concreti di ricerca) è necessario definire dei metodi di campionamento che consentano di tenere sotto controllo i margini di errore introdotti (rumore statistico) e quindi diventa rilevante l'impiego della statistica induttiva.

Ricolfi (1995) distingue la ricerca empirica da altri tipi di ricerca sulla base di tre requisiti :

  1. essa produce asserti o stabilisce nessi tra asserti
  2. li giustifica su una base empirica
  3. produce un sapere controllabile.
Cosa distingue una "buona ricerca" empirica da una ricerca empirica "meno buona"? Quali sono i criteri valutativi a cui deve sottostare una ricerca empirica? Campbell e Stanley (1963), identificano due criteri valutativi: la validità interna e la validità esterna.
Un asserto è internamente valido se esso è riconducibile all'evidenza empirica riscontrata in un campione. Nell'analisi monovariata, ad esempio, un asserto del tipo "il tasso di alcolismo tra i giovani torinesi è del 20 percento" è dotato di validità interna se è confermato dai dati del campione. Nell'analisi bivariata si ha, ad esempio, validità interna se ` possibile ricondurre, a livello causale, alla variazione della variabile indipendente una determinata variazione della variabile dipendente. In un contesto sperimentale di questo tipo si ha validità interna quando vengono tenuti sotto controllo tutti i fattori di disturbo che potrebbero influenzare il rapporto causale. Tale definizione è estensibile a qualunque asserto, anche al di fuori di un contesto sperimentale (ad esempio è possibile definire la validità interna di asserti del tipo "esiste una correlazione positiva tra tasso di disoccupazione e tasso di alcolismo"). La validità interna è quindi un criterio che valuta la fiducia che è possibile riporre in un dato asserto. Una ricerca è dotata di validità esterna se i suoi risultati non sono validi solo nelle circostanze specifiche in cui sono stati ottenuti, ma sono generalizzabili. La validità esterna dell'asserto, così come quella interna, prescinde dalla tecnica di rilevazione dei dati con cui l'asserto è stato ottenuto.
Il campionamento si pone come problema cruciale nella conduzione di ricerche empiriche dotate di validità interna ed esterna, come vedremo nell'unità 11. Le ricerche portate avanti su campioni rappresentativi sono ovviamente dotate di validità esterna, in quanto i risultati ottenuti studiando il campione sono estensibili all'intera popolazione. La validità interna è anch'essa legata al problema del campionamento dato che, ad esempio, nei disegni sperimentali con uno o più gruppi di controllo l'omogeneità tra i gruppi può solo essere ottenuta con piani di campionamento opportuni. Il discorso è ovviamente estensibile anche al di fuori dei contesti sperimentali.

Le tecniche della statistica induttiva di cui tratteremo nei vari moduli del corso sono le tecniche della stima statistica e dei test di ipotesi statistica, parametrici, e non parametrici. Queste tecniche sono strettamente legate alla teoria del campionamento statistico, quindi i due argomenti verranno trattati insieme. La tabella 1 riporta un prospetto riassuntivo delle caratteristiche e degli impieghi di tali tecniche.

Tecniche della statistica induttiva
Famiglia di tecniche Obiettivi Dati di partenza
Test di ipotesi non parametriche Controllo dell'aderenza della forma e posizione di una distribuzione ad un modello teorico.
Controllo dell'uguaglianza delle distribuzioni di due o più popolazioni.
Controllo dell'omogeneità di due o più campioni.
Controllo dell'indipendenza di due o più variabili.
Uno o più campioni, anche di bassa numerosità.
Nessuna limitazione sulla forma della popolazione.
Nessuna limitazione sul livello di scala delle variabili.
Test di ipotesi parametriche Controllo che un parametro (media, scarto tipo, proporzione di casi) di una popolazione abbia un dato valore.
Controllo che un parametro, misurato in due popolazioni, abbia lo stesso valore.
Uno o più campioni, preferibilmente di numerosità superiore ai 30 casi, tranne nel caso di popolazioni con distibuzione normale.
Il livello di scala delle variabili deve essere cardinale (tranne dove si lavora sulle proporzioni di casi).
Stima statistica Stima di un parametro (media, scarto tipo, proporzione di casi) di una popolazione. Un campione, preferibilmente di numerosità superiore ai 30 casi, tranne nel caso di popolazioni con distribuzione normale.

Tabella 1 - Tecniche di stima e di test di ipotesi statistica

Innanzitutto è necessario definire il concetto di "ipotesi statistica". Un'ipotesi è un enunciato che non può essere controllato direttamente, ma solo attraverso le sue conseguenze sperimentali o osservazionali, che sono vere se l'ipotesi stessa è vera. Laddove in un campione risultano verificate le conseguenze osservabili dell'ipotesi, l'ipotesi stessa diviene induttivamente più credibile.


Test di ipotesi non parametriche: trovare delle sistematicità a partire da un campione

L'approccio non parametrico affonda le sue radici nella definizione stessa di probabilità e questo fa si che tutte le tecniche siano riconducibili ad un calcolo di probabilità esatta di un dato evento o di un insieme di eventi che costituiscono il nostro campione e, partendo da questa, formulare degli enunciati sull'intera popolazione, ciascuno di questi provvisto di una sua probabilità.
La statistica non parametrica, quindi, osserva i dati, trova la probabilità esatta ad essi associata, controlla l'eventuale presenza di sistematicità, sulla base di un margine di errore prestabilito, quindi fornisce modelli per prendere delle decisioni tra ipotesi alternative.
Vediamo ora la filosofia sottostante alla statistica non parametrica con l'esempio più classico della teoria della probabilità: il lancio di una moneta. Se io lancio una moneta non truccata per quattro volte e viene sempre testa, qual è la probabilità di quest'evento? La probabilità, nella sua accezione classica, è definita come:

Probabilità = N di configurazioni delle quali ci interessa trovare la probabilità / N di configurazioni totali.

Il numero di configurazioni possibili per l'evento "quattro lanci di una moneta" ` dato da tutte le possibili permutazioni, che sono 16, cioè:

Esito dei quattro lanci Numero di teste Probabilità stimata di fare testa nel singolo lancio
TTTT 4 1
TTTC 3 3/4
TTCT 3 3/4
TTCC 2 1/2
TCTT 3 3/4
TCTC 2 1/2
TCCT 2 1/2
TCCC 1 1/4
CTTT 3 3/4
CTTC 2 1/2
CTCT 2 1/2
CTCC 1 1/2
CCTT 2 1/2
CCTC 1 1/4
CCCT 1 1/4
CCCC 0 0


Dato che ci interessa calcolare la probabilità dell'evento corrispondente alla prima permutazione (TTTT) e dato che quest'evento si presenta una sola volta nello spazio delle permutazioni, la sua probabilità sarà 1/16. Questo vale se vale l'ipotesi che la moneta non sia truccata, ovvero che tutte le 16 combinazioni siano tutte equiprobabili.
Se io ipotizzo che la moneta non sia truccata, la probabilità dell'evento "quattro teste consecutive " vale 1/16, ossia 0,0625. Questa è una probabilità molto bassa, di per sé non ci dice niente sul fatto che la moneta sia truccata o meno. Questa probabilità va letta nel seguente modo:"Se la moneta non fosse truccata (cioè P(testa)=P(croce)=1/2) la probabilità di avere in quattro lanci quattro teste sarebbe 1/16".
E' necessario a questo punto definire un criterio di decisione. Questo può, ad esempio, essere: "se la probabilità della configurazione empiricamente rilevata (nel nostro caso le quattro teste consecutive) è così piccola da far supporre l'esistenza di una sistematicità allora possiamo decidere che la moneta è truccata". Ma quanto deve essere piccola la probabilità dell'evento verificatosi per portare alla decisione che esista una sistematicità?. La soluzione più comune è definire un livello di fiducia, cioè un valore di probabilità al di sotto del quale si propende per la sistematicità del fenomeno. I valori più comunemente usati sono 0,05 e 0,01.
Spesso si trattano i livelli di fiducia, che sono arbitrariamente scelti dal ricercatore come dei limiti assoluti per l'accettazione o il rifiuto delle ipotesi statistiche, mentre dovrebbero essere piuttosto intesi come dei livelli di probabilità in base ai quali chiunque, secondo i suoi criteri soggettivi e le sue personali funzioni di utilità, decide, anche in base alle probabilità a priori che egli assegna agli eventi, la decisione da intraprendere (cioè moneta buona o truccata).
Nel nostro esempio, scegliendo un livello di fiducia di 0,05, dopo quattro lanci decideremo che la moneta non è truccata (dato che 0,0625 è maggiore di 0,05), ma se al quinto lancio si presenta ancora testa, decideremo per la presenza di una sistematicità (moneta truccata) dato che la probabilità dell'evento diverrebbe 0,0312 e sarebbe minore di 0,05).

La procedura di stima statistica la mettiamo in atto quando, definito un modello che ha un parametro libero (ad esempio la probabilità di fare testa o croce al singolo lancio, vedere tabella precedente), stimiamo questo parametro sulla base delle rilevazioni empiriche. Quando invece ci limitiamo ad affermare che le ipotesi di partenza sono vere o false, sulla base dei dati empirici e su una nostra soglia soggettiva che discrimina il vero dal falso, noi facciamo un test di ipotesi statistica.
Il test di ipotesi si limita a darci la probabilità di un dato evento sulla base di una ipotesi di partenza (nel nostro caso moneta non truccata), dalla quale possiamo supporre l'esistenza di una sistematicità o meno nel fenomeno, ma non ci dice nulla sulla natura di tale sistematicità: se lanciando una moneta dieci volte escono dieci teste possiamo assegnare un valore di probabilità all'evento e considerare questo valore così basso da farci supporre che "ci sia sotto qualcosa" ma non ci aiuterà a capire se è la moneta ad essere truccata o stiamo giocando contro un prestigiatore o magari tutte e due le cose insieme. Il test non parametrico che dà la probabilità esatta di un evento che si manifesta con due modalità (come l'esempio appena visto) si chiama test binomiale e per una trattazione dettagliata si rimanda a Trinchero (1997). L'insieme delle sedici possibili permutazioni ottenibili con quattro lanci di una moneta si chiama universo ipotetico di campionamento, ed è costituito da tutti i possibili campioni di numerosità 4 ottenibili con la moneta in questione. La distribuzione di frequenza del numero di teste in ciascun campione si chiama distribuzione campionaria e verrà trattata in dettaglio nell'unità 11. Nella pratica della ricerca sociale spesso universo ipotetico e universo reale (cioè la popolazione) differiscono (Marradi, 1989). Quando i due universi non coincidono è necessario definirli in modo da poter calcolare la probabilità effettiva di ciascuna permutazione, tenendo conto dei principi fondamentali del calcolo combinatorio e dell'assegnazione di probabilità (per una trattazione dettagliata vedere Montinaro, 1985):

  1. la probabilità dell'evento certo vale 1 e quella dell'evento impossibile vale 0;
  2. la probabilità congiunta di eventi escludentisi è pari alla somma delle singole probabilità;
  3. la probabilità di eventi non escludentisi è data dal teorema delle probabilità condizionate: P(A|B)=P(A^B)/P(B), cioè la probabilità dell'evento A, posto che si sia verificato l'evento B, è data dalla probabilità congiunta del verificarsi degli eventi A e B diviso la probabilità di B;
  4. la probabilità congiunta di eventi scambiabili (indipendenti) è data dal prodotto delle singole probabilità.

Tutti i test non parametrici possono essere ricondotti a tre fasi:

  1. ricostruzione dell'universo campionario sulla base dei dati del campione (o delle differenze tra i dati del campione)
  2. determinazione della probabilità del campione (o delle differenze tra i dati del campione) in esame sulla base dell' universo campionario
  3. decisione di casualità o sistematicità del campione sulla base di tale probabilità.
Per una trattazione dettagliata delle tecniche statistiche non parametriche consultare Trinchero (1997), Siegel & Castellan (1993).
Maggiori ragguagli sui test non parametrici verranno forniti nelle prossime unità del corso;


Test di ipotesi parametriche: controllare il valore di un parametro della popolazione

Supponiamo di dover stabilire se la proporzione di palline bianche in un'urna, contenente palline bianche e nere, č pari a 0,5. La decisione deve essere presa estraendone alla cieca un campione di numerosità n da un'urna che ne contiene N. Questo può essere visto come un problema di test di ipotesi parametrica, e l'esempio e del tutto analogo a quello visto precedentemente con il lancio di una moneta.
Anche in questo caso il test viene effettuato con la distribuzione binomiale. Essa descrive, nel modo già visto per i quattro lanci di una moneta, la distribuzione di frequenza relativa di tutti i possibili campioni di numerosità n estratti dall'urna. La figura 1 illustra la distribuzione binomiale con p=0,5 (la probabilità del singolo evento, cioè della singola estrazione della pallina, sotto l'ipotesi considerata) e differenti n (il numero di palline estratte, cioè la numerosità del campione): la curva più esterna corrisponde a n=2 e quella più interna a n=100. Per semplicità la figura riporta i poligoni di frequenza anziché i diagrammi a barre, come sarebbe stato corretto, dato che la binomiale è una variabile casuale discreta e non continua.
La formula che dà la probabilità binomiale cumulata è:



Fig. 1- Distribuzioni campionarie binomiali (p=0,5, n=2, n=4, n=8, n=18, n=30, n=50, n=100).

Le distribuzioni illustrate nella figura vanno lette nel seguente modo: estraendo da un'urna contenente palline bianche e palline nere in egual proporzione, otto (ad esempio) palline, le combinazioni in cui compariranno tre palline bianche e cinque nere, saranno circa il 22 percento e quelle dove compariranno solo palline nere saranno circa lo 0,01 percento del totale. Il poligono di frequenza rappresenta la distribuzione di tutti i possibili campioni di numerosità n=8 estraibili da quella popolazione.

Il test di ipotesi verrà effettuato nel seguente modo. Se la proporzione di palline bianche nel campione cade nelle "code", cioè negli estremi della distribuzione, (ad esempio se nel campione c'è una pallina bianca e sette nere, quindi la proporzione è 1/8 = 0,125) la probabilità di avere quel campione, sotto l'ipotesi considerata (p=0,5) sarà molto bassa (circa 0,025 come si vede dalla figura 1), quindi, se ho scelto come livello di significatività del test il valore (da me arbitrariamente scelto) = 0,05, posso rifiutare l'ipotesi che la proporzione di palline bianche nell'urna sia 0,5, dato che il mio campione cade nella cosiddetta regione di rifiuto, ossia agli estremi della distribuzione campionaria, definiti dal livello di significatività (tutti i valori al di sotto di ). Si può vedere dalla figura 1 che la distribuzione binomiale al crescere della numerosità campionaria tende alla distribuzione normale. L'approssimazione è sufficientemente buona con numerosità campionarie di trenta casi o più.
Questo esempio è il più semplice esempio di test di ipotesi parametrica. Maggiori ragguagli verranno forniti nelle prossime unità del corso.


 La stima statistica

Quando conduciamo una indagine su un campione, piuttosto che sull'intera popolazione, è necessario passare dalle considerazioni ottenute studiando il campione alle considerazioni riguardanti l'intera popolazione.
Neanche le più rigorose tecniche di campionamento probabilistico possono garantirci che il nostro campione sia una fotografia del tutto fedele alla popolazione di riferimento, anche se di essa si può misurare la significatività, ovvero la somiglianza alla popolazione e alle sue caratteristiche.

In che modo si può controllare questa somiglianza? Il solo modo per farlo è avanzare una ipotesi relativa alla struttura della popolazione e misurare poi la distanza tra le caratteristiche stimate (cioè osservate sul campione) e quelle ipotizzate sulla popolazione. Se la distanza risulterà elevata, allora:

  1. se siamo sicuri che la nostra ipotesi è vera il campione è da considerarsi non significativo;
  2. se siamo sicuri che il campione è significativo la nostra ipotesi è significativamente falsa.

A differenza di quanto accade nei problemi di verifica di ipotesi statistiche, nei problemi di stima statistica noi ignoriamo totalmente il parametro della popolazione che vogliamo stimare. Dobbiamo quindi sempre e comunque avere a disposizione un campione significativo, cioè un campione che riproduca fedelmente le caratteristiche (forma, posizione, parametri) della popolazione.
In mancanza di questo requisito l'applicazione dei procedimenti di stima statistica è da considerarsi del tutto arbitraria, e i risultati da essa ottenuti privi di qualsiasi validità pratica.

 Gli intervalli di fiducia

Una volta specificata la popolazione su cui condurre una ricerca, il passo successivo sarà estrarre un campione significativo dalla stessa popolazione oggetto di studio.

Un modo per stimare la media della popolazione è calcolare la media del campione, anche se questa non sarà una stima perfetta. Per questo occorre specificare il margine di errore della propria stima definendo gli intervalli di fiducia (detti anche intervalli di confidenza).
Un intervallo di fiducia serve a valutare l'intervallo in cui può cadere il parametro oggetto della stima.

Tale intervallo sarà definito in tal modo: - errore <  µ < + errore.
L'errore dipenderà dal livello di fiducia desiderato e dalla numerosità del campione. I livelli usati più frequentemente sono quelli che individuano la probabilità del 95% e del 99% di contenere il parametro oggetto di stima all'interno dell'intervallo calcolato.
Come si vede dalla figura 1 al crescere della numerosità del campione la distribuzione campionaria diventa più stretta e quindi si restringe il margine di errore e di conseguenza l'intervallo di fiducia per la stima.

Come vedremo si farà uso di variabili aleatorie (quali la distribuzione normale e la distribuzione t di Student) per definire l'area di probabilità corrispondente alla stima.

Se ad esempio si volesse stimare µ, media della popolazione, e se l'intervallo di fiducia del 95% fosse:

ciò significherebbe che l'intervallo compreso tra i valori 12.5 e 30.2 ha il 95% di probabilità di contenere µ.

Gli intervalli di fiducia sono applicabili alla stima di qualsiasi parametro. Nel caso dell'analisi monovariata possono essere calcolati su media, proporzione, mediana e varianza. Per una panoramica esaustiva vedere Grimaldi, (1996, p. 44 e seguenti).

   
  Per ritornare all'indice dell'unità   Intervallo di fiducia per la media, nel caso si conosca lo scarto tipo della popolazione