Derfor mener forskerne at Udirs tall om nasjonale prøver er feil
Utdanningsdirektoratets poengberegning gjør sammenligningen mellom ulike år feil, ifølge forskere ved Frischsenteret.
Norske elever er blitt betydelig flinkere i engelsk og litt dårligere i regning og lesing siden 2014, ifølge forskere ved Frischsenteret. Deres analyse skiller seg fra den offisielle statistikken til Utdanningsdirektoratet. Der er utviklingen nesten helt flat.
– Det er veldig uklart for oss hva som egentlig har skjedd her. Det vi kan si sikkert, er at det er noe galt. Og det har pågått lenge uten at noen har oppdaget det, sa forsker Oddbjørn Raaum ved Frischsenteret til Aftenposten, som først meldte om saken onsdag.
Avdelingsdirektør Frode Nyhamn i Udir mener ikke at de har regnet feil, men at det er snakk om ulike metoder. Til Aftenposten skriver han de ikke kan utelukke at Frischsenterets metode forsterker forskjellene for mye.
Så hvorfor har forskerne kommet frem til andre resultater enn Udir, og hvorfor er de så sikre på at direktoratet tar feil?
Bruker de samme oppgavene
Direktør Simen Markussen ved Frischsenteret forteller at forskjellen mellom deres og Udirs analyser, ligger i hvordan data for enkeltelevenes besvarelser omgjøres til såkalte skalapoeng. Skalapoengene er en måte å tallfeste ferdighetsnivået til den enkelte elev i lesing, regning og engelsk.
Elevenes oppgavesvar er råmaterialet som ligger til grunn for analysen. Forskerne ved Frischsenteret har fått tilgang til et anonymisert sett av disse. Disse blir konvertert til skalapoeng gjennom en statistisk analyse.
– Nasjonale prøver skal kunne sammenlignes over tid, men det er ikke så lett. Elevene svarer på forskjellige oppgaver hvert år, og hvordan skal man da vite om det er oppgaven eller elevene som har endret seg? spør Markussen.
Løsningen, forklarer han, har vært å gi noen tilfeldig utvalgte elever de samme oppgavene hvert år. Disse såkalte «anker-oppgavene» sørger for at resultatene blir sammenlignbare over tid.
– Det trekkes ut omtrent 3500 elever som får en litt annen oppgave enn de andre. Om lag halvparten av oppgavene de får er ankeroppgaver, og halvparten er like som de andre.
Når forskerne analyserte svarene på disse anker-oppgavene fant de endringer i statistikken som ikke ble fanget opp av den offisielle statistikken. Forskerne undersøkte også data for alle oppgavene og alle elevene, med ulike statistiske modeller, med samme resultat.
Utdanningsdirektoratets offisielle statistikk viser en utvikling som er nesten helt flat. Mens forskerne ved Frischsenteret fant en betydelig økning i engelsk, og en mindre nedgang i lesing og regning.
Mener prøvene er nyttige
Markussen understreker at dette ikke betyr at «alt» ved den nasjonale prøvestatistikken er feil.
– Det vi hevder er at endringene over tid i de offisielle tallene er feil. Vi tror ikke rangeringene innen år mellom ulike skoler og elever påvirkes, sier Markussen.
Han mener heller ikke at funnene til forskerne er et skudd for baugen til ordningen med nasjonale prøver som sådan.
– Jeg er opptatt av at man ikke skal trekke den konklusjonen at nasjonale prøver er unyttige. Det mener vi absolutt ikke.
Tvert imot mener han at prøvene blir mer nyttige når man i større grad kan fange opp endringer over tid.
Resultatene fra nasjonale prøver er viktige i mye forskning og statistikk. Men Markussen mener ikke at alt som er gjort med disse dataene nødvendigvis blir feil, selv om forskere har tatt utgangspunkt i Utdanningsdirektoratets skalapoeng.
– Vi tror den interne rangeringen hvert år er grei, og i mange tilfeller er det bare den forskerne har brukt, sier han.
Markussen tror heller ikke at den praktiske bruken av de nasjonale prøvene, for eksempel i dialog mellom foreldre og skolen vil være berørt i nevneverdig grad.