Unità 11
Il campionamento

In questo capitolo saranno trattati i seguenti argomenti:

POPOLAZIONE E CAMPIONE
CAMPIONAMENTO PROBABILISTICO
CAMPIONAMENTO NON PROBABILISTICO
LA DISTRIBUZIONE CAMPIONARIA
CALCOLO DELLA NUMEROSITÀ OTTIMALE DEL CAMPIONE
IL PROBLEMA DELLA RAPPRESENTATIVITÀ DEL CAMPIONE





  Popolazione e campione

Perché fare ricerca su un campione e non sull'intera popolazione? Essenzialmente le ragioni sono tre:

  1. Il minor costo di una ricerca condotta su un numero minore di unità di analisi.
  2. L'impossibilità di fare ricerca su tutta una popolazione: si pensi ad esempio se fosse possibile un sondaggio elettorale che coinvolgesse tutti gli italiani.
  3. Il continuo mutamento della popolazione renderebbe inutili, perché non significativi, i risultati di una eventuale ricerca condotta sull' intera popolazione. Questi risultati sarebbero già superati pochi giorni dopo la loro pubblicazione.

Grazie alle moderne tecniche statistiche, facendo ricerca su un campione anzichè sull'intera popolazione si hanno risultati con pochissima perdita di precisione, come è stato illustrato nell'unità 10 sulla stima statistica.

I passi da compiere nell'individuazione di un campione sono:

  1. Definire la popolazione che si vuole studiare elencando tutte la caratteristiche che si vogliono studiare.
  2. Definire un campione che sia un sottoinsieme o porzione della popolazione totale.
Il campione si deve sempre considerare come un'approssimazione della popolazione, ma se ben fatto fa risparmiare molto tempo e denaro nella rilevazione dei dati e nella loro analisi.

I campioni si possono dividere in probabilistici e non probabilistici, dove per i primi si intendono quei campioni da cui è pienamente corretto estendere alla popolazione i risultati della stima statistica e per i secondi quelli cui non è pienamente corretto fare inferenze rispetto alla popolazione.
La suddivisione principale per le tipologie di campionamento è dunque:

Campionamento probabilistico Campionamento non probabilistico

Campionamento probabilistico

Come abbiamo poc'anzi detto, il campione probabilistico è quel campione i cui risultati possono essere estesi con un certo livello di fiducia (detto anche livello di confidenza) alla popolazione. All'interno del campione probabilistico troviamo diverse tipologie di campionamento:

Campionamento casuale
Campionamento sistematico
Campionamento stratificato
Campionamento a grappoli

Campionamento casuale

Per campionamento casuale si intende un campionamento creato da un universo al cui interno ogni singola unità ha la stessa probabilità di un altra di essere estratta.

La popolazione considerata è finito; se la popolazione fosse infinita non si potrebbe definire una lista di campionamento.
Come si costruisce questo campione? Dopo aver definito una lista di campionamento in cui a ogni soggetto viene associato un numero d'ordine, ha inizio l'estrazione dei singoli individui (servendosi ad esempio di un generatore di numeri casuali) e, nel caso in cui ogni soggetto estratto non venga più reimmesso per le estrazioni successive, avremo un campionamento casuale semplice.
Assegnando ad ogni soggetto della popolazione un numero ed estraendo dei numeri in modo casuale per avere dei numeri veramente casuali, sono state costruite delle tabelle di numeri casuali, generate al calcolatore e composte da numeri assolutamente privi di sistematicità interne disposti a gruppi secondo righe e colonne.
Si parte arbitrariamente da un punto qualsiasi della tavola e si considerano i numeri che si incontrano di lì in poi, escludendo quelli che superano il numero di casi presenti in lista di campionamento e quelli che si ripetono, se si vuole creare un campione senza reimmissione.
I vantaggi di questo tipo di campionamento sono di evitare le distorsioni provocate da campionamenti non casuali (sistematicità) e di permettere di stimare gli errori di campionamento (attraverso il calcolo degli intervalli di fiducia, vedere l'unità 10).
Le tecniche della statistica induttiva applicabili ai campioni casuali semplici sono la stima e i test di ipotesi, parametriche e non parametriche.

Campionamento sistematico

Per creare questo tipo di campione si segue un determinato sistema che non è l'estrazione a sorte.
Si usa quando le unità che compongono l'universo sono numerabili progressivamente e consiste nell'estrarre delle unità di campionamento distanziate da un intervallo costante.

La popolazione considerata è finita; se la popolazione fosse infinita non si potrebbe definire una lista di campionamento.

Supponiamo di campionare n unità da una popolazione di N unità. Si fissa come unità di partenza un numero i scelto a caso e compreso tra 1 e il rapporto R dato dalla numerosità della popolazione rapportata a quella del campione.
Quindi il rapporto sarà uguale a:

dove N è la numerosità della popolazione e n è la numerosità del campione.

R, detta anche ragione del campionamento, rappresenta l' intervallo costante che intercorre tra le singole unità enumerate.

Quindi se l'unità di partenza sarà i, le successive unità di campione saranno determinate nel seguente modo:

n1=i;         n2=i+R;         n3=i+2R...

e così procedendo fino all'estrazione di tutte le unità di campione. Questo campione che di per sè non è casuale, lo si può rendere tale quando le unità di universo sono disposte a caso, ovvero senza alcuna sistematicità.
Le tecniche della statistica induttiva applicabili al campionamento sistematico sono la stima e i test di ipotesi, parametriche e non parametriche.

Campionamento stratificato

Se l'universo della ricerca non è omogeneo per avere una minor variabilità si può ricorrere al campionamento stratificato, combinando più campioni casuali semplici indipendenti e scelti in appropriate proporzioni, da strati omogenei, in una popolazione eterogenea. Ad esempio gli strati potrebbero essere costituiti dalle casalinghe, dagli operai, dagli studenti, ecc. La popolazione considerata deve essere finita.

Il campione si forma estraendo a caso un certo numero di unità da ogni gruppo che è al suo interno omogeneo e alla fine si combinano i diversi campioni così ottenuti creando un campione che risulta in ultima istanza probabilistico.
Occorre però prestare attenzione alla scelta delle unità, alla dimensione del campione, alla omogeneità delle unità dell'universo.
Il primo passo è suddividere l'universo in sottoinsiemi o gruppi il più possibile omogenei ed estrarre a caso da ogni sottouniverso un campione di opportune dimensioni. I gruppi o sottoinsiemi sono chiamati strati, la ripartizione in gruppi stratificazione.
Le tecniche della statistica induttiva applicabili al campionamento stratificato sono la stima e i test di ipotesi, con opportune correzioni alle formule.

Occorre definire la numerosità del campione di ogni strato con un criterio, scegliendo ad esempio o la proporzione sull'intero universo dello strato stesso o calcolare la frazione di campionamento n/N costante per ogni strato, in modo che ciascuno di essi abbia lo stesso peso nel campione. Esistono due tipi di campionamento stratificato:

Nel primo caso si divide la popolazione in strati il più possibile omogenei al loro interno e il più possibile eterogenei tra di loro. Occorre estrarre un campione casuale di ni elementi all'interno di ogni strato i. Il totale di elementi campionati deve essere n.

Qusto tipo di campionamento dà buoni risultati quando è bassa l'eterogeneità all'interno dei singolo strati.

Anche nel campionamento stratificato con frazione di campionamento variabile, si divide la popolazione in strati il più possibile omogenei al loro interno e il più possibile eterogenei tra di loro e si estrae un campione casuale all'interno di ogni strato, ma dagli strati meno omogenei (ovvero dove è maggiore la variabilità) devono essere estratti più elementi. Il totale di elementi campionati deve essere n.

Questo secondo tipo di campionamento stratificato, dà buoni risultati quando è alta l'eterogeneità all'interno dei singoli strati. La frazione campionaria in ogni strato deve essere proporzionale allo scarto tipo dello strato.
Esiste un caso particolare del campionamento stratificato chiamato campione ottimo di Neyman. E' un sinonimo di campione per strati con numerosità variabili di campionamento all'interno di ogni strato in maniera da rendere minima la varianza della stima del carattere in questione.

Campionamento a grappoli

Adatto per popolazioni molto grandi (ma finite) risulta utile per ridurre i costi di rilevazione, attraverso campionamenti intermedi che costituiscono campionamenti di primo, secondo ... r-esimo stadio.
Si scelgono innanzi tutto delle unità primarie, nell'ambito di queste unità primarie si scelgono delle unità secondarie o di secondo stadio e così via fino a giungere alla unità statistica che l'indagine si prefigge di rilevare. La scelta delle unità di ogni stadio può essere probabilistica, essere casuale, stratificata, sistematica, ecc. Se la scelta delle varie unità viene fatta a caso sarà possibile applicare i metodi di stima statistica e calcolare gli intervalli di fiducia per le stime (vedere l'unità 10). Un esempio di campionamento a grappoli potrebbe essere:

Provincia- Comune- Scuola elementare- Classe- Allievi

Esistono due tipi di campionamento a grappolo:

  1. con grappoli di ampiezza costante
  2. con grappoli di ampiezza variabile

Nel primo tipo di campionamento si divide la popolazione in G gruppi (grappoli) tra di loro omogenei; g di essi scelti casualmente, cositituiscono il campione estratto. E' importante che ogni grappolo sia al suo interno il più eterogeneo possibile. I grappoli devono essere tutti di ampiezza pari ad h. In un buon campione di questo tipo deve essere massima l'eterogeneità all'interno di ciascuno strato e minima tra gli strati.
Sono applicabili le stesse tecniche della statistica induttiva applicabili al campionamento sistematico.

Nel campionamento a grappolo, con grappoli di ampiezza variabile, occorre dividere la popolazione in vari gruppi (grappoli) tra di loro omogenei. Uno di essi, scelto casualmente, costituisce il campione estratto. E' importante che ogni grappolo sia al suo interno il più eterogeneo possibile.
In un buon campione di questo tipo deve essere massima l'eterogeneità all'interno di ciascun strato e minima tra gli strati. Sono applicabili le tecniche della statistica induttiva assegnando un peso proporzionale alla dimensione del grappolo prescelto.


Tavola dei numeri casuali

Tavola dei numeri casuali


     
      Per ritornare alle tipologie di campionamento       Campionamento non probabilistico







  Campionamento non probabilistico

All'interno di questa sezione ritroviamo il campionamento accidentale, il campionamento per quote, il campionamento a valanga, quello per dimensioni, il campionamento a più stadi e infine il campionamento a elementi rappresentativi.

Campionamento accidentale


si ha un campionamento accidentale quando il ricercatore sceglie come rispondenti alla sua indagine le prime persone che capitano, senza criteri definiti. Ciò che si perde in accuratezza del campione, lo si risparmia in tempo e denaro. Non sono applicabili le tecniche della statistica induttiva.

Campionamento per quote


è quel tipo di campionamento non probabilistico che equivale al campionamento stratificato da cui si differenzia perchè ogni strato è generalmente rappresentato nella stessa proporzione, proporzione che ha nella popolazione complessiva (che deve essere finita).
Dopo aver deciso quali strati possono essere rilevanti per l'indagine che si deve condurre, si stabilisce per ogni strato una quota proporzionata alla sua consistenza nella popolazione complessiva.

Occorre dividere la popolazione in strati il più possibile omogenei al loro interno e il più possibile eterogenei tra di loro. La selezione degli individui negli strati viene lasciata agli intervistatori.
Il totale di elementi campionati deve essere n.

In questo tipo di campionamento vengono occultati i problemi di "non risposta". I risultati possono essere distorti a causa della discrezionalità degli intervistatori. Non sono applicabili le tecniche della statistica induttiva.

Campionamento a valanga


composto da più fasi, dopo aver intervistato alcune persone dotate delle caratteristiche richieste, queste persone servono per identificare altri soggetti che possono essere intervistati in una fase successiva e che a loro volta producono informazioni per identificare altri soggetti con le caratteristiche per essere inclusi nel campione, creando così un effetto a valanga.
Non sono applicabili le tecniche della statistica induttiva.

Campionamento per dimensioni


dopo aver specificato tutte le dimensioni (variabili) che ci interessa studiare all'interno della popolazione (che deve essere finita), si verifica che per ogni possibile combinazione delle diverse dimensioni ci sia almeno un caso. In tal modo anche con un campione piccolo si possono studiare le dimensioni suddette senza correre il rischio di avere combinazioni non rappresentate.
Non sono applicabili le tecniche della statistica induttiva.

Campionamento a più stadi


dopo aver suddiviso la popolazione (finita) in gruppi, si estrae un campione casuale di sottogruppi all'interno di ogni gruppo. Si ripete il processo fino a che non si giunge all'estrazione delle unità di analisi prescelte. Non sono applicabili le tecniche della statistica induttiva.

Campionamento a elementi rappresentativi


si ha un campionamento a elementi rappresentativi quando si selezionano all'interno della popolazione gli elementi che il ricercatore ritiene rappresentativi per gli obiettivi della ricerca. Non sono applicabili le tecniche della statistica induttiva.

Tabella riassuntiva
Tipo di campionamento Popolazione Procedura di estrazione Tecniche applicabili Note
Casuale semplice Finita Definire una lista di campionamento. Selezionare n elementi servendosi di un generatore di numeri casuali. Stima, test di ipotesi Queste considerazioni (e le formule presentate nel seguito) valgono anche per il campionamento senza reimbussolamento (o estrazione in blocco), cioè dove un elemento estratto non può essere estratto una seconda volta.
Casuale semplice Infinita Considerare la popolazione infinita è un artificio per semplificare le formule di calcolo dello scarto tipo campionario. In realtÓ la popolazione Ŕ finita, anche se molto grande ed Ŕ possibile definire una lista di campionamento e selezionare n elementi servendosi di un generatore di numeri casuali. Stima, test di ipotesi Queste considerazioni (e le formule presentate nel seguito) valgono anche per il campionamento con reimbussolamento, cioè dove lo stesso elemento può essere estratto più di una volta.
Sistematico Finita Definire una lista di campionamento. Definire una ragione di campionamento k. Estrarre n elementi, uno ogni k. Stima, test di ipotesi (se la sistematicitÓ di estrazione non "disturba" la variabile sotto esame) E' più semplice da estrarre del campione casuale semplice. La probabilità di estrazione non è la stessa per ogni combinazione di soggetti. Le tecniche di stima sono ancora applicabili a patto che la sistematicitÓ di estrazione non introduca distorsioni sistematiche nella varibile sotto esame. E' un caso particolare del campione a grappoli.
Sistematico Infinita idem come casuale semplice con popolazione infinita idem
Stratificato, con frazione di campionamento costante Finita Dividere la popolazione in strati il più possibile omogenei al loro interno e il più possibile eterogenei tra di loro. Estrarre un campione casuale di ni elementi all'interno di ogni strato i. Il totale di elementi campionati deve essere n. Stima, test di ipotesi, con opportune correzioni alle formule. Dà buoni risultati quando è bassa l'eterogeneità all'interno dei singoli strati.
Stratificato, con frazione di campionamento variabile Finita Dividere la popolazione in strati il più possibile omogenei al loro interno e il più possibile eterogenei tra di loro. Estrarre un campione casuale all'interno di ogni strato. Dagli strati meno omogenei (ovvero dove è maggiore la variabilità) devono essere estratti più elementi. Il totale di elementi campionati deve essere n. Stima, test di ipotesi, con opportune correzioni alle formule. Dà buoni risultati quando è alta l'eterogeneità all'interno dei singoli strati. La frazione campionaria in ogni strato deve essere proporzionale allo scarto tipo dello strato.
Per quote Finita Dividere la popolazione in strati il più possibile omogenei al loro interno e il più possibile eterogenei tra di loro. La selezione degli individui negli strati viene lasciata agli intervistatori. Il totale di elementi campionati deve essere n. Non sono applicabili le tecniche della statistica induttiva. Vengono occultati i problemi di "non risposta". I risultati possono essere distorti a causa della discrezionalità degli intervistatori.
A grappolo, con grappoli di ampiezza costante Finita Dividere la popolazione in G gruppi (grappoli) tra di loro omogenei,g di essi, scelti casualmente, costituiscono il campione estratto. E'importante che ogni grappolo sia al suo interno il più eterogeneo possibile. I grappoli devono avere tutti ampiezza pari ad h. idem sistematico In un buon campione di questo tipo deve essere massima l'eterogeneità all'interno di ciascun strato e minima tra gli strati.
A grappolo, con grappoli di ampiezza variabile Finita Dividere la popolazione in vari gruppi (grappoli) tra di loro omogenei. Uno di essi, scelto casualmente, costituisce il campione estratto. E' importante che ogni grappolo sia al suo interno il più eterogeneo possibile. Sono applicabili le tecniche della statistica induttiva assegnando un peso proporzionale alla dimensione del grappolo prescelto. In un buon campione di questo tipo deve essere massima l'eterogeneità all'interno di ciascun strato e minima tra gli strati.
A più stadi Finita Suddividere la popolazione in gruppi. Estrarre un campione casuale di sottogruppi all'interno di ogni gruppo. Ripetere il processo fino a che non si giunge all'estrazione delle unità di analisi prescelte. Non sono applicabili le tecniche della statistica induttiva.
Per panel Finita Creare un panel di soggetti distribuiti per aree geografiche e socio-economiche, con un numero limitato di soggetti che possono essere raggiunti in tempi brevissimi. Valgono le considerazioni fatte per i campioni stratificati.
Per dimensioni finita Specificare tutte le dimensioni (variabili) oggetto della ricerca all'interno della popolazione. Definire una griglia tra queste dimensioni e fare in modo che per ogni possibile combinazione delle diverse dimensioni ci sia almeno un caso, in modo da non avere combinazioni non rappresentate. Non sono applicabili le tecniche della statistica induttiva.
Ottimo di Neyman Finita E' un sinonimo di campione per strati con numerosità variabili di campionamento all'interno di ogni strato in maniera da rendere minima la varianza della stima del carattere in questione. Valgono le considerazioni fatte per i campioni stratificati.
Accidentale Qualsiasi Consiste nell'intervistare le prime persone che capitano, senza criteri definiti. Non sono applicabili le tecniche della statistica induttiva
A valanga Qualsiasi Intervistare alcuni soggetti dotati delle caratteristiche richieste dall'indagine e utilizzare questi soggetti per avere altri nominativi da intervistare, in modo da creare un effetto a valanga. Non sono applicabili le tecniche della statistica induttiva.
A elementi rappresentativi Qualsiasi Selezionare all'interno della popolazione gli elementi che il ricercatore ritiene rappresentativi per gli obiettivi della ricerca. Non sono applicabili le tecniche della statistica induttiva.

Per ritornare alle tipologie di campionamento Per ritornare all'indice dell'unità




La distribuzione campionaria

Supponiamo di avere una popolazione formata da cinque bambini di età diversa:
Soggetto A 1 anno
Soggetto B 2 anni
Soggetto C 3 anni
Soggetto D 4 anni
Soggetto E 5 anni

L'età media nella popolazione è µ = 3 anni, lo scarto tipo = radice di 2 = 1,414 anni. La distribuzione, il cui poligono di frequenza è illustrato in figura 1, è rettangolare, dato che ogni valore di età ha frequenza 1.


Fig. 1 - Esempio di distribuzione rettangolare

Supponiamo di voler estrarre da questa popolazione tutti i possibili campioni di classe n=2. I campioni estraibili sono N2=52=25, e sono elencati nella tabella 2, con accanto la stima della media ricavata dal campione stesso. L' estrazione è stata fatta con reimmissione, cioè lo stesso soggetto viene reimmesso nella popolazione dopo essere stato estratto e può essere estratto una seconda volta.

Campione Media campionaria
11 1
12 1,5
13 2
14 2,5
15 3
21 1,5
22 2
23 2,5
24 3
25 3,5
31 2
32 2,5
33 3
34 3,5
35 4
41 2,5
42 3
43 3,5
44 4
45 4,5
51 3
52 3,5
53 4
54 4,5
55 5

Tabella 1 - Medie campionarie di tutti i possibili campioni di numerosità n=2 (estrazione con reimmissione)

La media delle medie campionarie è 3, ed è quindi pari alla media della popolazione. Quando questa condizione è soddisfatta si dice che lo stimatore è corretto. Lo scarto tipo della distribuzione campionaria è pari ad 1.
Definiamo ora la distribuzione campionaria calcolando la distribuzione di frequenza delle medie campionarie della tabella 2.

Media campionaria Frequenza
1 1
1,5 2
2 3
2,5 4
3 5
3,5 4
4 3
4,5 2
5 1

Tabella 2 - Distribuzione campionaria di tutti i possibili campioni di ampiezza n=2 (estrazione con reimmissione)

Fig. 2 - Distribuzione campionaria di tutti i possibili campioni di ampiezza n=2 (estrazione con reimmissione)

Come si vede la distribuzione campionaria, anche con un numero così limitato di casi approssima la curva normale. L'approssimazione diventa accettabile con numerosità campionarie maggiori di trenta casi. Per numerosità campionarie inferiori si deve ricorrere all'approssimazione della distribuzione campionaria con la funzione t di Student e tale approssimazione è lecita solo se il carattere considerato della popolazione di partenza è normale (vedere Grimaldi, 1996, p. 44). Per il teorema del limite centrale (la cui validità è però tuttora oggetto di controversie, vedere Castellano e Herzel, 1971, p. 141-2), per campioni di ampiezza abbastanza grandi (n>30) la distribuzione campionaria delle medie approssima la distribuzione normale con media uguale alla media della popolazione dalla quale i campioni sono stati estratti (nel nostro caso µ==3) e scarto tipo uguale allo scarto tipo della popolazione diviso per la radice della numerosità campionaria (nel nostro caso ).

L'universo campionario appena definito è quello con reimmissione. Vediamo adesso l'estrazione senza reimmissione. L'insieme di tutti i possibili campioni è elencato in tabella 3.

Campione Media campionaria
12 1,5
13 2
14 2,5
15 3
21 1,5
23 2,5
24 3
25 3,5
31 2
32 2,5
34 3,5
35 4
41 2,5
42 3
43 3,5
45 4,5
51 3
52 3,5
53 4
54 4,5

Tabella 3 - Medie campionarie di tutti i possibili campioni di numerosità n=2 (estrazione senza reimmissione)

Come si vede è possibile estrarre campioni distinti. La media delle medie campionarie è 3, pari alla media della popolazione. Anche in questo caso lo stimatore è corretto. Lo scarto tipo della distribuzione campionaria è pari ad 0,866 ed è inferiore al caso con reimmissione; questo risultato è dovuto al fatto che campionando senza reimmissione si escludono dalla distribuzione campionaria i valori estremi, la stima fatta con il campione senza reimmissione è quindi generalmente più precisa (la distribuzione campionaria è più stretta) ed è sempre da preferire a parità di condizioni. La distribuzione di frequenza delle medie campionarie è illustrata in tabella 4.
Media campionariax- Frequenza
1,5 2
2 2
2,5 4
3 4
3,5 4
4 2
4,5 2

Tabella 4 - Distribuzione campionaria di tutti i possibili campioni di ampiezza n=2 (estrazione senza reimmissione)


Fig. 3 - Distribuzione campionaria di tutti i possibili campioni di ampiezza n=2 (estrazione senza reimmissione)

Definite le distribuzioni campionarie possiamo passare ad illustrare la logica alla base della stima per intervallo.
Quando estraiamo un campione dalla popolazione questo deve ricadere all'interno dell'universo campionario. Se definiamo sulla distribuzione campionaria un intervallo all'interno del quale cade una certa area di tale distribuzione, detto intervallo di fiducia e corrispondente alla probabilità associabile alla stima (intesa come grado di fiducia scelto per la stima stessa), avremo sull'asse delle ascisse un intervallo corrispondente a tale probabilità, come illustrato in figura 4. Come si vede dalla figura lo scostamento massimo tra valore stimato del parametro (il valore calcolato sul singolo campione estratto dalla popolazione) e il valore vero è (se il livello di fiducia scelto è 0,6826), 1,96 (se il livello di fiducia scelto è 0,95), 2 (se il livello di fiducia scelto è 0,9545), 3 (se il livello di fiducia scelto è 0,9974).

Fig. 4 - Stima per intervalli (caso di stima della media con distribuzione campionaria normale)

Per una stima ad intervallo qualsiasi vale quindi la relazione , dove z è il valore della normale standardizzata per il livello di fiducia considerato. Nella stima per intervallo si ha un errore quando il campione estratto cade nelle "code" della distribuzione, ovvero al di fuori dell'intervallo di fiducia. Di tale errore è però possibile calcolare la probabilità che vale il complemento ad 1 del livello di fiducia.

Calcolo della numerosità ottimale del campione

Sia nel campionamento per quote (stima della media) che per proporzioni (stima della proporzione di un carattere qualitativo nella popolazione), aumentando la numerosità del campione la distribuzione campionaria diventa più stretta; è possibile definire la quantità come scarto tipo campionario, ovvero lo scarto tipo della distribuzione campionaria. Tale scarto tipo:
  1. cresce al crescere dello scarto tipo della popolazione di partenza
  2. diminuisce al crescere della numerosità campionaria.

Numerosità campionaria ottimale per la stima di una media

Se stiamo stimando una media e la distribuzione campionaria è normale (quindi stiamo lavorando con più di trenta casi) vale, come abbiamo visto nel paragrafo precedente, la diseguaglianza:

dove:
= media stimata a partire dal campione estratto
µ = media della popolazione
z = costante (corrispondente al valore della variabile casuale normale standardizzata) che dipende dal livello di fiducia desiderato per la stima
= scarto tipo campionario

Da questa diseguaglianza, con opportuni passaggi algebrici che qui tralasciamo, otteniamo la relazione fondamentale del campionamento:

(1) Campionamento esaustivo (senza reimmissione)

dove:
N: è la numerosità della popolazione
2: varianza della popolazione
: errore assoluto ammesso per la stima del parametro
z: costante (corrispondente al valore della variabile casuale normale standardizzata) che dipende dal livello di fiducia desiderato per la stima

Questa è la formula di base per ricavare la numerosità ottimale di un campione a partire dalla numerosità della popolazione, dall'errore ammesso, dal livello di fiducia desiderato per la stima, dalla varianza della popolazione, nel caso di estrazione esaustiva (estrazione in blocco o estrazione senza reimmissione). Se l'estrazione non è esaustiva (cioè con reimmissione) o la popolazione si può considerare infinita (N molto grande), la numerosità della popolazione non influenza la numerosità campionaria ottimale e la formula diventa:
(2) Campionamento bernoulliano (con reimmissione)

N scompare dalle formule perchè, quando compio un'estrazione con reimmissione, posso estrarre infiniti campioni (anche se i campioni distinti saranno solo Nn).

Partendo dalla formula basilare del campionamento (la 1) possiamo vedere come la variazione dei parametri (numerosità della popolazione, varianza della popolazione, errore ammesso) incida sulla numerosità campionaria ottimale. In figura 5 si vede come al crescere della numerosità della popolazione la numerosità ottimale del campione tenda asintoticamente al valore definito dalla relazione 2.


Fig. 5 - Relazione tra numerosità della popolazione e numerosità del campione (varianza della popolazione uguale a 100, errore ammesso uguale a 1)

Sono pertanto sufficienti campioni di poche centinaia di casi per definire stime molto precise anche su popolazioni di milioni di casi. Un andamento simile ha la relazione tra numerosità del campione e varianza della popolazione (figura 6). In presenza di popolazioni molto eterogenee, dove tutti i casi sono diversi dagli altri e quindi la varianza è molto alta, l'unica buona strategia è non campionare ma studiare tutti i casi della popolazione. L'operazione di campionamento, laddove fatta correttamente dovrebbe quindi consistere in una sorta di riduzione della ridondanza di informazione, ovvero dove sono presenti più soggetti omogenei nella popolazione (cioè con bassa varianza tra di loro) è possibile includere un numero più basso di essi nel campione (assegnando a ciascuno un peso proporzionale all'effettiva presenza di quella tipologia di soggetti nella popolazione) senza introdurre grosse distorsioni.


Fig. 6 - Relazione tra varianza della popolazione e numerosità del campione (numerosità della popolazione uguale a 1000, errore ammesso uguale a 1)

L'errore della stima vale zero se lavoriamo sull'intera popolazione (figura 7). Al diminuire della numerosità campionaria cresce lentamente fino a frazioni di campionamento (n/N) di 1/10 e da qui in poi più rapidamente.


Fig. 7 - Relazione tra errore ammesso e numerosità del campione (numerosità della popolazione uguale a 1000, varianza della popolazione uguale a 1)

Come si può vedere anche dai grafici, le formule (1) e (2) danno la numerosità campionaria minima per ottenere quel valore di errore della stima dato il livello di confidenza desiderato, la varianza e la numerosità della popolazione. Aumentando tale numerosità l'effetto sarà di restringere il margine di errore (intervallo di fiducia) della stima.

Numerosità campionaria ottimale per la stima di una proporzione

Se stiamo stimando una proporzione la formula di calcolo della numerosità campionaria sarà:
Campionamento esaustivo (senza reimbussolamento)

dove:

N = numerosità della popolazione

z = valore della variabile casuale normale standardizzata per il livello di fiducia desiderato

= errore ammesso per la stima del parametro

p = proporzione da stimare nella popolazione da studiare, conviene mettersi nella situazione più svantaggiosa, ovvero p=0,5 per il quale il valore di n diventa elevato)

q=1-p

Per N grande (popolazione infinita) diventa:
Campionamento bernoulliano (con reimbussolamento)



Il problema della rappresentatività del campione

In questa unità abbiamo spiegato i principi del campionamento e i motivi per cui è preferibile fare ricerca su un campione piuttosto che sull'intera popolazione. E' stata illustrata la divisione dei campioni in probabilistici e non probabilistici, dove per i primi si intendono quei campioni da cui è corretto estendere alla popolazione i risultati della stima statistica e per i secondi quelli da cui non è corretto fare inferenze rispetto alla popolazione.

Gli esempi visti precedentemente, hanno messo in luce i problemi relativi all'operazione di campionamento. Il più importante è che quando campioniamo a dover considerare due incognite: il parametro oggetto di stima e la rappresentatività del campione. Se non conosciamo almeno una delle due non possiamo mai essere certi di conoscere l'altra. Come afferma Marradi (1989, p. 52) tra il concetto di campione casuale e di campione rappresentativo non esiste alcuna relazione logicamente necessaria. Ad sempio, nella stima di una proporzione, se si definisce rappresentativo il campione in cui il parametro stimato coincide con quello vero della popolazione, la probabilità di estrarre un campione rappresentativo, con numerosità campionaria di 100 casi, è di circa 0,08 e, paradossalmente, decresce all'aumentare della numerosità campionaria, come si può notare dalla distribuzione campionaria per la stima di una proporzione (vedere l'unità 10).

Il problema della rappresentatività del campione casuale va quindi affrontato ridefinendo il concetto di rappresentatività, passando da una definizione che tiene conto di un unico punto (la stima puntuale del parametro) ad una definizione che tiene conto di un intervallo. Un campione casuale è quindi rappresentativo nella misura in cui il valore del parametro oggetto di stima cade all'interno dell'intervallo di fiducia considerato. Se sto lavorando con un intervallo di fiducia del 95 percento, ho una probabilità di 0,95 di estrarre dalla popolazione un campione rappresentativo, cioè un campione che rende vera l'affermazione che faccio durante l'operazione di stima: "il parametro della popolazione è compreso tra i limiti dell'intervallo di fiducia". Il campione estratto è non rappresentativo se proviene dalla "code" della distribuzione campionaria. Non possiamo mai essere certi che il campione da noi estratto non provenga da tali "code", ma possiamo quantificare questa probabilità, che è poi la probabilità di commettere un'errore nell'operazione di stima per intervallo, e nel nostro esempio vale 0,05.




Approfondimenti

Distribuzione normale Unità 7
Stima statistica Unità 10


            Per ritornare all'indice dell'unità

 
       
Unità 10 Homepage Esercitazioni Assistenza didattica Unità 12