Nel valutare un nuovo test psicologico, solitamente, il professionista ne considera in modo attento tutte le caratteristiche principali: il costrutto di riferimento, la popolazione alla quale si rivolge, i tempi di somministrazione e (perché no) il prezzo di vendita.
Non è però molto comune che si addentri nel valutarne gli aspetti più strettamente psicometrici e le relative ricadute sull’utilizzo. È tuttavia importante considerare che la teoria psicometrica di riferimento rappresenta l’approccio metodologico sul quale si basa il test per misurare uno specifico costrutto psicologico; essa determina le caratteristiche dello strumento utilizzato, le modalità di calcolo e il significato dei diversi punteggi e degli errori di misurazione.
Teoria classica dei test vs Item Response Theory
Due sono le principali teorie psicometriche sulle quali si basano i test psicologici:
- la teoria classica dei test (Classical Test Theory, CTT; Gulliksen, 1950), che rappresenta al momento l’approccio più diffuso,
- l’Item Response Theory (IRT; Hambleton, Swaminathan e Rogers, 1991) un approccio maggiormente complesso, sviluppato in tempi più recenti e non sempre sufficientemente conosciuto.
Il presente articolo ha lo scopo di delineare le principali caratteristiche di questi due approcci, evidenziandone punti di forza e di debolezza, al fine di consentire anche ai professionisti meno esperti nelle tematiche psicometriche di approcciarsi in modo informato all’utilizzo di tali test.
La teoria classica dei test
Entrambe le teorie vengono impiegate nella costruzione di strumenti psicometrici con l’obiettivo di misurare tratti latenti, ovvero caratteristiche non direttamente osservabili (come intelligenza, ansia ecc.) attraverso le risposte della persona a differenti domande (item) contenute in questionari appositamente creati.
La teoria classica dei test giunge alla misurazione del tratto latente di interesse mediante la trasformazione del numero di risposte esatte (o affermative) fornite dal soggetto in un punteggio globale: un individuo in possesso di un maggiore tratto dovrebbe rispondere correttamente a un maggior numero di domande. L’intero test è quindi utilizzato come unità di analisi di quella determinata abilità.
L’Item Response Theory
L’approccio dell’Item Response Theory ribalta completamente tale punto di vista, focalizzandosi non sull’intero test, ma sulle caratteristiche del singolo item, stimandone la difficoltà e il livello di discriminatività e mettendole in relazione con il livello di abilità del soggetto mediante un preciso modello statistico. In questo modo è quindi possibile collocare sia gli individui sia gli item su di un continuum che rappresenta una scala comune di misura del tratto latente.
L’IRT assume infatti che ogni esaminato che risponde a un certo item abbia un certo valore di abilità sottostante al quale corrisponde un livello proporzionale di probabilità di rispondere correttamente a quello specifico item. Soggetti più dotati di quel tratto avranno maggiori probabilità di rispondere correttamente e viceversa.
Da tale intuizione deriva uno dei parametri principali esaminati da questi modelli: la difficoltà dell’item. Questo valore viene definito come il punto della scala di abilità dove la probabilità di risposta esatta è del 50%. Tale stima, derivante dai modelli statistici IRT, non è da confondere con il livello di difficoltà valutato nell’approccio CTT, che si riferisce solitamente alla percentuale di risposte corrette fornite dal campione di soggetti e ha quindi un differente significato.
I parametri relativi a uno specifico item calcolati dai modelli IRT possono essere rappresentati graficamente nella cosiddetta curva caratteristica dell’item (Item Characteristic Curve, ICC), la quale mostra la probabilità di risposta corretta in funzione del livello di tratto. Con tale funzione matematica è possibile stabilire con precisione le caratteristiche di ogni item rispetto all’abilità raggiunta dalla persona. Tale valutazione può anche esser effettuata a livello dell’intero test mediante la curva caratteristica del test, che è costituita dalla somma delle ICC di tutti gli item di un questionario.
Item Response Theory: una diversa concettualizzazione dell’errore di misurazione
Ulteriore aspetto che differenzia i due approcci è la diversa concettualizzazione dell’errore di misurazione.
La CTT, prendendo in considerazione il punteggio dell’intero test, considera il punteggio ottenuto (punteggio osservato) come la somma di due componenti:
- il punteggio vero, ovvero il valore reale ma teorico che ciascun oggetto possiede rispetto alla caratteristica misurata (e che non può essere osservato direttamente),
- e la componente di errore di misurazione, ovvero la deviazione del punteggio osservato dal punteggio vero.
Le tecniche psicometriche della CTT consentono di stimare tale errore per giungere, con un certo intervallo di confidenza alla definizione del punteggio vero.
Questo processo di stima porta con sé alcuni elementi di criticità:
- la valutazione dell’abilità può essere effettuata solo somministrando l’intero questionario (l’errore di misurazione è relativo al punteggio totale del test);
- i valori ottenuti utilizzando la CTT sono specifici per il campione di riferimento analizzato e non rappresentano quindi una caratteristica propria e stabile del test analizzato. Tale specificità rende difficoltoso il loro utilizzo per effettuare comparazioni tra contesti differenti.
La valutazione dell’errore di misurazione dell’IRT passa invece per una specifica funzione informativa (Item Information Function, IIF) valutata per ogni item. Questa esprime la precisione con cui esso misura l’abilità in un preciso livello di tratto. È possibile quindi determinare per quale specifico livello di tratto la stima dell’abilità sarà più precisa e meno inficiata da errore e, al contrario, in quale tratto di abilità lo stesso item avrà un errore standard maggiore.
Questa funzione consente di selezionare accuratamente degli item da somministrare per valutare un determinato livello di tratto e stimare così in modo ottimale anche gli estremi della distribuzione dei punteggi. In questo modo è possibile valutare con precisione anche i punteggi atipici nella popolazione generale, come nel caso – per i test di intelligenza – degli individui con disabilità intellettiva grave o con plusdotazione.
In questa teoria, al contrario di quanto avviene nella CTT, l’attendibilità dello strumento non è direttamente legata al numero di item, ma alla loro informatività. I modelli IRT consentono infatti di stimare matematicamente il punteggio vero basandosi sulle risposte del soggetto a un determinato insieme di item. Questo approccio rende possibile quindi l’utilizzo un sottoinsieme ridotto di item particolarmente discriminativi, e non necessariamente tutti gli item del questionario. Il modello matematico consentirà di confrontare tra loro le abilità di soggetti ai quali sono stati somministrati item differenti.
L’indipendenza dei parametri dell’item dalle caratteristiche dei rispondenti fa sì che le proprietà dell’item restino immutate a ogni somministrazione del test, indipendentemente dai soggetti che rispondono al test stesso, consentendo un’agevole comparazione tra contesti differenti. Tale aspetto comporta un indubbio vantaggio rispetto ai test basati sulla CTT, che al contrario non consente di separare le caratteristiche delle persone da quelle degli item (Schmidt, Embretson, 2003).
In conclusione, le caratteristiche proprie dei modelli IRT ne fanno un potente strumento per tutti gli ambiti nei quali la valutazione dell’abilità di una persona risulta essere fondamentale (per esempio i test di intelligenza, di abilità generale o degli apprendimenti scolastici).
Come esposto sopra, i test psicologici basati sui modelli IRT consentono indubbi vantaggi in termini di rapidità d’utilizzo, precisione, flessibilità e informatività. Lo sviluppo di strumenti secondo questa prospettiva risulta tuttavia maggiormente difficoltoso, e richiede la creazione di test psicometrici progettati ad hoc in modo da considerare le assunzioni teoriche e i vincoli specifici propri dei modelli IRT.
L’Item Characteristic Curve (ICC)
L’obiettivo dei modelli IRT è predire la probabilità che un soggetto con un determinato livello di abilità (Θ) risponda correttamente a uno specifico item.
Tale relazione può essere definita da una funzione matematica, rappresentata in forma grafica come Item Characteristic Curve. Nell’ICC la probabilità di risposta corretta di un soggetto a uno specifico item viene espressa in funzione di un insieme di parametri propri dell’item, identificati con le lettere a, b e c.
Il parametro b è una misura della difficoltà: item facili hanno bassi valori di b e item più difficili hanno alti valori di b. Il parametro a misura la discriminatività dell’item, ovvero quanto bene l’elemento può distinguere tra persone con abilità inferiori e superiori; maggiore è il valore di a, più ripida è la pendenza della curva dell’item e più l’item è discriminativo per il livello di abilità in esame. Infine, il parametro c rappresenta la probabilità che un candidato con bassa abilità risponda correttamente all’item (pseudo-guessing).
Diversi modelli di IRT possono considerare tutti e tre i parametri oppure solo una parte di essi, come il noto modello di Rasch che valuta un unico parametro (Armstrong, Belov, Weissman, 2005).
Bibliografia:
- Armstrong R., Belov D., Weissman A. (2005), «Developing and assembling the law school admission test», Interfaces, 35 (2), 140-151.
- Gulliksen H. (1950), Theory of mental tests, Wiley, New York.
- Hambleton R. K., Swaminathan H., Rogers H. J. (1991), Fundamentals of item response theory (Vol. 2), Sage, New York.
- Schmidt K. M., Embretson S. E. (2003), «Item Response Theory and measuring abilities». In J. A. Schinka, W. F. Velicer (eds.), Handbook of psychology, 2, Research Method in Psychology, John Wiley, Hoboken, pp. 429-445.