Reliabilitet er et gode, ikke et hinder for en god eksamen
Debatt: – Å forstå reliabilitet som en forutsetning for validitet, innebærer å ta rettsikkerheten til elever på alvor.
I debatten om ny eksamen er flere prøvefaglige fenomener blitt ført frem som indikasjoner på at Utdanningsdirektoratet ønsker å umyndiggjøre lærere og svekke insentivene for å bedrive en faglig forsvarlig opplæring. Debattanter har for eksempel sagt at bruken av psykometri er en snikinnføring av metoder fra psykiatrien, at «kriterier» innebærer slutten på faglig skjønn i vurderingen og ikke minst at direktoratet setter reliabilitet fremfor validitet.
Det sistnevnte bygger på en feilaktig forestilling om relasjonen mellom reliabilitet og validitet, og i dette innlegget vil vi argumentere for hvorfor reliabilitet ikke bare er en teknikalitet som en kan vektlegge i større eller mindre grad, men et sentralt prinsipp når en skal ivareta elevers rettsikkerhet.
Les også: Vi lager en eksamen i norsk, ikke en nasjonal prøve i lesing og skriving
Vi skal starte med å rydde i begrepene. Reliabilitet kan oversettes til stabilitet, mens validitet kan oversettes til gyldighet, altså at resultater er til å stole på. Koretz (2008) eksemplifiserer med en vekt som kan måle korrekt eller ukorrekt. En vekt som iblant måler korrekt og iblant ukorrekt oppviser lav stabilitet, det vil si lav reliabilitet. Man kan ikke stole på en slik vekt fordi det vil være vanskelig å vite hvilket av resultatene som er riktig.
En vekt som alltid måler riktig vekt, kan sies å både være valid og reliabel. En vekt som alltid måler 5 kg for mye eller 5 kg for lite oppviser liten gyldighet, men god stabilitet. Vektbildet gjør det enklere å separere stabilitet og gyldighet, men eksamen skal selvsagt ikke veie elevers kompetanse; eleven skal utøve sitt faglige skjønn for å tolke og besvare en eller flere oppgaver, og sensor skal utøve sitt faglige skjønn for å vurdere hvilken kompetanse elevsvaret er et uttrykk for.
I debatten om ny eksamen kan en høre at det er lurt å prioritere validitet fremfor reliabilitet. Ut fra vårt vekteksempel framstår dette som et paradoks. Uten stabilitet i målingene er det jo vanskelig å vite hva vekten er.
Paradokset får tilsynelatende sin oppløsing om en går tilbake til en sentral forsker på testfeltet, Pamela Moss, og hennes prøvefaglige idéverden hvor to ulike/motsatte tolkinger av en kompleks gjenstand (for eksempel en elevtekst) kan være like gyldige (Moss, 1994).
Ifølge Moss oppheves derved aksiomet at reliabilitet er en forutsetning for validitet. Moss har unektelig et poeng: La si at to anmeldere har lest den samme boka, men at de har kommet til helt motsatte konklusjoner om bokas kvalitet. Begge anmeldere argumenterer godt, og gitt den tolkningsrammen de har utgått fra, framstår det som at begge har relevante poenger. Vi har da en situasjon der vurderingen av boken har to ulike, men like gyldige utfall.
Problemet med Moss’ idéer er at de ikke er overførbare til prøver i skolen fordi de ikke tar høyde for et viktig punkt: Til forskjell fra bokkonsumenter vil de som bruker eksamensresultat (for eksempel myndigheter som har ansvar for opptak til høyere studier) ikke selv gjøre sin egen tolkning av hvilken kompetanse et gitt elevsvar indikerer.
I vårt bokeksempel er det uviktig om leseren til syvende og sist er enig med bokanmelder A eller B; bokleseren sitter jo igjen med sin egen, gyldige tolking av bokas kvaliteter. Derimot har vurdering i skolen et helt annet formål i og med at formålet med standpunktvurdering og eksamen er å tallfeste elevers kompetanse.
For at tallene skal kunne brukes i kommunikasjon mellom eksempelvis skolen som har utdannet eleven og myndigheter for opptak, må vi kunne stole på at to elever med hver sine firere har likeverdig kompetanse. Systemet er ikke rigget for at alle kan gå tilbake til elevens arbeid for å danne seg et eget bilde av kompetansen til eleven.
Å forstå reliabilitet som en forutsetning for validitet, innebærer å ta rettsikkerheten til elever på alvor. Standpunkt- og eksamenskarakterer får konsekvenser for hvilken utdanning elever kan ta og hvilke jobber eleven kan få.
Eleven må derfor være trygg på at tallkarakteren speiler elevens kompetanse, og ikke om eleven hadde hell eller uhell med sensor, eller hell eller uhell med oppgaven; når formålet med eksamen er å tallfeste elevens kompetanse, bør prøven heller ikke bare bestå av ei oppgave i og med at det blir tilfeldig om denne ene oppgava er rettet mot den delen av faget eleven behersker best eller dårligst.