Capitolo 7. La statistica:alcuni elementi tecnici (Irene Mazza)
7.
La statistica: alcuni elementi tecnici 7.1
I concetti di base La statistica è una scienza
che fa uso di strumenti matematici ed è dotata di un proprio rigore specifico;
come in tutte le scienza, anche nella statistica esistono dei concetti di base
tra cui: ·
Variabile: fenomeno o caratteristica
passibile di assumere differenti valori misurabili. ·
Frequenza: valori numerici denotanti le
misure appartenenti ad una specifica classe individuata; esistono tre tipi di
frequenze: assolute (i valori numerici denotano gli oggetti esaminati);
relative (rapportare la numerosità di ogni classe con quella totale);
cumulative (frequenze di ogni classe raggruppate additivamente tra loro). ·
Distribuzione: si ha quando le misure
individuate sono nuovamente classificate secondo la loro frequenza; le misure
impiegate durante queste ricerche sono riconducibili ai concetti di centrazione
e di dispersione dove il primo rimanda all’individuazione di un valore numerico
che rappresenta il punto o lo spazio centrale di una variabile, mentre il
secondo richiama lo spazio al cui interno si colloca la variabile in questione. Le misure impiegate per la
centrazione sono: ·
Moda: individua la classe che presenta la più
elevata frequenza. ·
Mediana: individua l’attributo corrispondente
alla classe che sorpassa la metà della distribuzione. ·
Media: strumento più noto per la misurazione
del punto centrale di una distribuzione anche se concerne unicamente aspetti
quantitativi e mai qualitativi. Esistono vari tipi di medie: ·
Media aritmetica: valore numerico ottenuto
dal rapporto tra la somma dei valori della variabile ed il totale degli
effettivi. ·
Media aritmetica ponderata: ad ogni attributo
di una variabile corrispondono specifici pesi; tale corrispondenza stabilisce
l’intensità della variabile; questo tipo di media è particolarmente utilizzata con
distribuzione a intervalli. Si può identificare il
concetto di dispersione con il numero delle classi d’equivalenza che
costituiscono l’insieme di dati analizzati e, nel caso si abbia a che fare con
scale quantitative, con il campo di variazione che indica i limiti al cui
interno si collocano i valori della variabile; si tratta di un’indicazione di
scarsa attendibilità, ma necessaria per esaminare misure più precise quali: ·
Scarto Semi-Interquartile: un quartile è
l’indice che ripartire la frequenza in 4 parti uguali; per calcolare lo scarto
semi-interquartile si individua la prima classe che supera il 75% della
distribuzione, si somma alla prima che supera il 25% ed il risultato si divide
per 2. ·
Deviazione standard: il valore numerico che
indica la distanza geometrica media che tutti i punti hanno rispetto a quello
centrale. ·
Varianza: dal momento che non ha senso
parlare di distanza geometrica ricorrendo a numeri negativi, per ovviare a
questo limite la somma delle distanze tra ogni effettivo della distribuzione e
la media della stessa sarà elevata al quadrato; la media di quest’ultima sarà
la varianza, la cui radice quadrata è la deviazione standard. Le scale di misurazione sono
le diverse modalità con cui saremo in grado di esaminare i dati; esistono
diversi tipi di scale: ·
Scale nominali: di tipo qualitativo, si hanno
quando un insieme di dati può essere ripartito in classi d’equità. ·
Scale ordinali: di tipo qualitativo, si hanno
quando, rispetto ad un insieme di dati, è possibile definire una relazione
d’ordine. ·
Scala a intervalli: di tipo quantitativo
rimane stabile rispetto a determinate trasformazioni. ·
Scala a rapporti: di tipo quantitativo,
riguarda due o più variabili aventi un’origine comune. 7.2
Inferenza tra scale nominali Per compiere un’inferenza
statistica a livello di scale nominali, occorre compiere una serie di passaggi:
1.
Elaborazione di un’ipotesi nulla e di una
alternativa. 2.
Scelta di un indice che indichi il margine
d’errore oltre al quale si deve accettare l’ipotesi alternativa. 3.
Esecuzione dei calcoli. 4.
Accettazione o rifiuto dell’ipotesi nulla. 7.2.1
Il test dell’ X2 L’obiettivo è verificare se
tra due o più fattori sussistano correlazioni; il X2 misura le
differenze elevate al quadrato tra frequenze teoriche e frequenze osservate. La
formula per calcolare l’X2 sarà: ∑i
n ∑j m (
ft – f0 )2
ft Il
metodo migliore per impiegare il X2 consiste nel ricorrere ad
apposite tavole che, a seconda dei valori attribuiti all’indice di
significatività (α), riportano valori numerici per cui se X2 ≤ α
allora rimane valida l’ipotesi nulla, altrimenti l’ipotesi alternativa. 7.3 Inferenza tra scale
ordinali Per
l’inferenza tra scale ordinali, ciò che importa è la possibilità di definire in
modo puntuale e preciso la distribuzione del campione; esistono due
possibilità: campioni indipendenti (campioni che si desidera confrontare,
costituiti da elementi diversi; campioni dipendenti (osservazioni o prove
confrontate tra due campioni). Quando
si cercherà di studiare se un insieme di n di campioni appartiene a popolazioni
uguali o diverse, si ricorre a tecniche dette di analisi della varianza per
ranghi; infine vi sono particolari indici che studiano le correlazioni tra due
variabili, alcuni dei quali possono trovare un’applicazione anche per i test
delle scale a intervalli: è il caso della ρ di Spearman in cui Ρ
= 1 - 6D2 N3-N Il
risultato sarà -1 ≤ ρ < 1; mentre nel caso in cui i due campioni sono
identici o antitetici il risultato sarà
ρ = - 1. 7.4. Inferenza tra scale a
intervallo Prima
di fornire semplici esempi di test specifici delle scale a intervallo,
introduciamo alcuni concetti, specifici delle scale quantitative, che sono
estremamente utili. 7.4.1 Covarianza Date
due variabili x e y, si definisce Covarianza di x e y la media della sommatoria
dei prodotti ottenuti dalle differenze tra ogni valore di una variabile meno la
media della stessa, moltiplicate per ogni valore dell’altra variabile meno la
sa media; la covarianza può assumere valori sia positivi, sia negativi dove,
nel primo caso, le due variabili sono tra loro direttamente proporzionali,
mentre nel secondo sono inversamente proporzionali. 7.4.2 Correlazione lineare Il
concetto di dipendenza funzionale intende una relazione tra variabili che può
essere rappresentata da una funzione matematica; si parla di assenza di
dipendenza funzionale quando non è possibile stabilire una relazione tra
elementi; si ha, invece, una dipendenza statistica quando sussiste una
relazione tra le variabili in questione senza essere in grado di tradurla in
una funzione matematica: la misura della dipendenza statistica è il coefficiente
di correlazione. È
comprensibile che esistano molti coefficienti a seconda del tipo della funzione
stabilita tra le variabili in questione: una correlazione è lineare quando,
date le variabili x e y, si dispiegano secondo una funzione lineare del tipo y
= ax + b con a≠ 0. La
formula per calcolare il coefficiente di correlazione è: rxy
= Covxy σx σy I
valori numerici di questo coefficiente saranno – 1 ≤ rxy ≤ 1; in
particolare: se la dispersione tra le variabili x e y è nulla, allora rxy =
1; se la dispersione è nulla tra le variabili x e –y, allora rxy = -1; nel caso vi fosse dipendenza statistica,
allora rxy ~ 0. 7.5 Regressione lineare I
dati ricavati dall’esperienza quasi mai producono risultati traducibili con una
linea retta; quando, a seguito di ricerche empiriche si constata che due
variabili hanno un elevato coefficiente di correlazione è possibile cercare di
individuare quali sono i parametri che definiscono il rapporto tra situazione
reale e quello che si produrrebbe se ci fosse una correlazione totale. Rappresentando
quest’ultima con l’equazione y = a + bx e stabilendo che tra
situazione teorica e situazione reale sussisterà uno scarto di cui non si può
tenere conto, è possibile determinare nuove rette che si avvicinano il più
possibile alla retta teorica: sono le rette di regressione. 7.6 Analisi della varianza È
possibile definire l’analisi della varianza come un particolare modo di
raggruppare i dati affinchè si possa più agevolmente decidere sulla verità
dell’ipotesi che ha prodotto la ricerca: si tratta di mettere a confronto due o
più campioni per verificare eventuali differenze; per fare ciò, le condizioni
necessarie sono: l’esistenza di una distribuzione normale nell’universo, che vi
siano campioni casuali indipendenti e che le derivazioni standard negli
universi dai quali sono ricavati i campioni siano eguali. Si
definiscono trattamenti le condizioni che stabiliscono le condizioni della
variabile indipendente: quel che è provocato sulla variabile dipendente è l’effetto
dei trattamenti.