Capitolo 7. La statistica:alcuni elementi tecnici (Irene Mazza)

7. La statistica: alcuni elementi tecnici

7.1 I concetti di base

La statistica è una scienza che fa uso di strumenti matematici ed è dotata di un proprio rigore specifico; come in tutte le scienza, anche nella statistica esistono dei concetti di base tra cui:

·        Variabile: fenomeno o caratteristica passibile di assumere differenti valori misurabili.

 

·        Frequenza: valori numerici denotanti le misure appartenenti ad una specifica classe individuata; esistono tre tipi di frequenze: assolute (i valori numerici denotano gli oggetti esaminati); relative (rapportare la numerosità di ogni classe con quella totale); cumulative (frequenze di ogni classe raggruppate additivamente tra loro).

 

 

·        Distribuzione: si ha quando le misure individuate sono nuovamente classificate secondo la loro frequenza; le misure impiegate durante queste ricerche sono riconducibili ai concetti di centrazione e di dispersione dove il primo rimanda all’individuazione di un valore numerico che rappresenta il punto o lo spazio centrale di una variabile, mentre il secondo richiama lo spazio al cui interno si colloca la variabile in questione.

 

Le misure impiegate per la centrazione sono:

·        Moda: individua la classe che presenta la più elevata frequenza.

·        Mediana: individua l’attributo corrispondente alla classe che sorpassa la metà della distribuzione.

·        Media: strumento più noto per la misurazione del punto centrale di una distribuzione anche se concerne unicamente aspetti quantitativi e mai qualitativi.

Esistono vari tipi di medie:

·        Media aritmetica: valore numerico ottenuto dal rapporto tra la somma dei valori della variabile ed il totale degli effettivi.

·        Media aritmetica ponderata: ad ogni attributo di una variabile corrispondono specifici pesi; tale corrispondenza stabilisce l’intensità della variabile; questo tipo di media è particolarmente utilizzata con distribuzione a intervalli.

 

Si può identificare il concetto di dispersione con il numero delle classi d’equivalenza che costituiscono l’insieme di dati analizzati e, nel caso si abbia a che fare con scale quantitative, con il campo di variazione che indica i limiti al cui interno si collocano i valori della variabile; si tratta di un’indicazione di scarsa attendibilità, ma necessaria per esaminare misure più precise quali:

·        Scarto Semi-Interquartile: un quartile è l’indice che ripartire la frequenza in 4 parti uguali; per calcolare lo scarto semi-interquartile si individua la prima classe che supera il 75% della distribuzione, si somma alla prima che supera il 25% ed il risultato si divide per 2.

 

·        Deviazione standard: il valore numerico che indica la distanza geometrica media che tutti i punti hanno rispetto a quello centrale.

 

·        Varianza: dal momento che non ha senso parlare di distanza geometrica ricorrendo a numeri negativi, per ovviare a questo limite la somma delle distanze tra ogni effettivo della distribuzione e la media della stessa sarà elevata al quadrato; la media di quest’ultima sarà la varianza, la cui radice quadrata è la deviazione standard.

 

Le scale di misurazione sono le diverse modalità con cui saremo in grado di esaminare i dati; esistono diversi tipi di scale:

·        Scale nominali: di tipo qualitativo, si hanno quando un insieme di dati può essere ripartito in classi d’equità.

 

·        Scale ordinali: di tipo qualitativo, si hanno quando, rispetto ad un insieme di dati, è possibile definire una relazione d’ordine.

 

 

·        Scala a intervalli: di tipo quantitativo rimane stabile rispetto a determinate trasformazioni.

 

·        Scala a rapporti: di tipo quantitativo, riguarda due o più variabili aventi un’origine comune.

 

 

7.2 Inferenza tra scale nominali

Per compiere un’inferenza statistica a livello di scale nominali, occorre compiere una serie di passaggi:

1.   Elaborazione di un’ipotesi nulla e di una alternativa.

 

2.   Scelta di un indice che indichi il margine d’errore oltre al quale si deve accettare l’ipotesi alternativa.

 

3.   Esecuzione dei calcoli.

 

4.   Accettazione o rifiuto dell’ipotesi nulla.

 

7.2.1 Il test dell’ X2

L’obiettivo è verificare se tra due o più fattori sussistano correlazioni; il X2 misura le differenze elevate al quadrato tra frequenze teoriche e frequenze osservate. La formula per calcolare l’X2 sarà:

i n j ( ft – f0 )2                

                  ft  

                

Il metodo migliore per impiegare il X2 consiste nel ricorrere ad apposite tavole che, a seconda dei valori attribuiti all’indice di significatività (α), riportano valori numerici per cui se X2 ≤ α allora rimane valida l’ipotesi nulla, altrimenti l’ipotesi alternativa.

 

 

 

 

7.3 Inferenza tra scale ordinali

 

Per l’inferenza tra scale ordinali, ciò che importa è la possibilità di definire in modo puntuale e preciso la distribuzione del campione; esistono due possibilità: campioni indipendenti (campioni che si desidera confrontare, costituiti da elementi diversi; campioni dipendenti (osservazioni o prove confrontate tra due campioni).

Quando si cercherà di studiare se un insieme di n di campioni appartiene a popolazioni uguali o diverse, si ricorre a tecniche dette di analisi della varianza per ranghi; infine vi sono particolari indici che studiano le correlazioni tra due variabili, alcuni dei quali possono trovare un’applicazione anche per i test delle scale a intervalli: è il caso della ρ di Spearman in cui

 

Ρ = 1 -  6D2

           N3-N

 

Il risultato sarà -1 ≤ ρ < 1; mentre nel caso in cui i due campioni sono identici o antitetici il risultato sarà  ρ = - 1.

 

 

7.4. Inferenza tra scale a intervallo

 

Prima di fornire semplici esempi di test specifici delle scale a intervallo, introduciamo alcuni concetti, specifici delle scale quantitative, che sono estremamente utili.

 

 

7.4.1 Covarianza

 

Date due variabili x e y, si definisce Covarianza di x e y la media della sommatoria dei prodotti ottenuti dalle differenze tra ogni valore di una variabile meno la media della stessa, moltiplicate per ogni valore dell’altra variabile meno la sa media; la covarianza può assumere valori sia positivi, sia negativi dove, nel primo caso, le due variabili sono tra loro direttamente proporzionali, mentre nel secondo sono inversamente proporzionali.

 

 

 

7.4.2 Correlazione lineare

 

Il concetto di dipendenza funzionale intende una relazione tra variabili che può essere rappresentata da una funzione matematica; si parla di assenza di dipendenza funzionale quando non è possibile stabilire una relazione tra elementi; si ha, invece, una dipendenza statistica quando sussiste una relazione tra le variabili in questione senza essere in grado di tradurla in una funzione matematica: la misura della dipendenza statistica è il coefficiente di correlazione.

È comprensibile che esistano molti coefficienti a seconda del tipo della funzione stabilita tra le variabili in questione: una correlazione è lineare quando, date le variabili x e y, si dispiegano secondo una funzione lineare del tipo y = ax + b  con a≠ 0.

La formula per calcolare il coefficiente di correlazione è:

 

rxy = Covxy

        σx σy

 

I valori numerici di questo coefficiente saranno – 1 ≤ rxy ≤ 1; in particolare: se la dispersione tra le variabili x e y è nulla, allora rxy = 1; se la dispersione è nulla tra le variabili x e –y, allora rxy =  -1; nel caso vi fosse dipendenza statistica, allora rxy ~ 0.

 

 

 

7.5 Regressione lineare

 

I dati ricavati dall’esperienza quasi mai producono risultati traducibili con una linea retta; quando, a seguito di ricerche empiriche si constata che due variabili hanno un elevato coefficiente di correlazione è possibile cercare di individuare quali sono i parametri che definiscono il rapporto tra situazione reale e quello che si produrrebbe se ci fosse una correlazione totale.

Rappresentando quest’ultima con l’equazione y = a + bx e stabilendo che tra situazione teorica e situazione reale sussisterà uno scarto di cui non si può tenere conto, è possibile determinare nuove rette che si avvicinano il più possibile alla retta teorica: sono le rette di regressione.

 

 

7.6 Analisi della varianza

 

È possibile definire l’analisi della varianza come un particolare modo di raggruppare i dati affinchè si possa più agevolmente decidere sulla verità dell’ipotesi che ha prodotto la ricerca: si tratta di mettere a confronto due o più campioni per verificare eventuali differenze; per fare ciò, le condizioni necessarie sono: l’esistenza di una distribuzione normale nell’universo, che vi siano campioni casuali indipendenti e che le derivazioni standard negli universi dai quali sono ricavati i campioni siano eguali.

Si definiscono trattamenti le condizioni che stabiliscono le condizioni della variabile indipendente: quel che è provocato sulla variabile dipendente è l’effetto dei trattamenti.

 

 

 

8/9
Edurete.org Roberto Trinchero