Forskere: Gode elevresultater etter pandemien skyldes ikke kun manglende eksamen
Etter to år med pandemi har elevenes standpunktkarakterer i videregående gått kraftig opp. Er manglende eksamen årsaken? Forskere peker på vurdering.
Da Kunnskapsdepartementet avlyste eksamen i 2020 og 2021, var ett av argumentene at elevene hadde fått forskjellig undervisning og at en felles eksamen for alle elever i videregående da ville være urettferdig.
Nå viser resultatene at elevenes standpunktkarakterer har gått kraftig opp. Mange peker på at manglende eksamen er grunnen. Men flere vurderingsforskere mener forklaringen er mer kompleks. De viser til at ulike vurderingsformer og vurderingsordninger kan slå ulikt ut.
Forsker Lars Kirkebøen i Statistisk sentralbyrå peker i et innlegg i Aftenposten på at eksamen også til vanlig er et visst lotteri. Elever trekkes tilfeldig i eksamensfag, og eksamensformene kan variere. Det får også konsekvenser for vitnemålet.
«Også utenom pandemi er noen elever heldige med uttrekket, andre ikke. Men selv om eleven kan ha flaks eller uflaks, så er det ingen systematikk i hvem som har flaks. Standpunktkarakterene derimot er mindre tilfeldige, men kanskje mer urettferdige,» skriver Kirkebøen.
Vurderingspraksis har størst betydning
Kirkebøen mener systematiske forskjeller like gjerne kan handle om vurderingspraksis. Ett eksempel er at gutter får bedre eksamenskarakterer enn jenter med tilsvarende standpunktkarakter.
Samtidig utgjør standpunktkarakterene over 80 prosent av karakterene på elevenes vitnemål.
Kirkebøen skriver: «I de to pandemiårene uten eksamen har standpunktkarakterene økt kraftig. Uten ekstern vurdering er det vanskelig å vite om det gjenspeiler læring eller vurdering, og om forskjeller i vurdering har økt eller på andre måter endret seg og blitt mer eller mindre urettferdige.»
Han mener at Kunnskapsdepartementet, ved å avlyse eksamen, fratok skolene et hjelpemiddel for å sette rettferdige karakterer. Samtidig gjør de det vanskeligere å vite i hvilken grad pandemien har påvirket elevenes læring og om noen skoler eller elevgrupper er særlig hardt rammet.
Får støtte av vurderingsforskere
Eksamensbesvarelsene vurderes av to eksterne sensorer. De to sensorene setter først en karakter hver for seg. Så møtes de og kommer frem til det som skal bli elevens endelige karakter på vitnemålet.
I en forskningsrapport fra 2021 har to forskere systematisk gjennomgått forslag de to eksterne sensorene kom fram til hver for seg. Rapporten avdekker at det er store variasjoner. Analysene er gjort med utgangspunkt i over 700.000 elevbesvarelser fra årene 2015 til 2019 i 40 utvalgte fag.
Forskerne Gustaf Bernhard Skar ved NTNU og Julius Kristjan Björnsson ved Universitetet i Oslo har utarbeidet rapporten. Karakterene de har vurdert gjelder skriftlig eksamen og det endelige eksamensresultat, der de to karakterene er slått sammen til én, er ikke vurdert.
Sier mest om sensors strenghet
Forskerne fant blant annet at deres funn tyder på at eksamen er bedre på å skille mellom sensors strenghet enn kandidatenes kompetanse.
Hvilke eksterne sensorer eleven får på eksamen, kan påvirke karakteren. Forskerne skriver at «man i noen fag ikke kan utelukke at resultatet kunne vært et helt annet hvis eleven hadde blitt vurdert av et annet sensorpar.»
Dessuten mener de at det ikke er mulig å skille mellom seks forskjellige karakterer. I snitt kan man klare å skille mellom tre nivåer av kompetanse, hevder de. Forskerne spør seg derfor om karakterskalaen 1–6 er et for finmasket system.
– Man vet ikke ut fra eksamen om en elev som har fått tre og en elev som har fått fire på eksamen har forskjellig kompetanse, uttaler Skar til Aftenposten.
Større variasjon i samfunnsfag enn i realfag
Rapporten viser også forskjeller mellom fag. I matematikk og andre realfag er sensorene mer samstemte. I norsk, engelsk og samfunnsfag er det langt større uenighet.
– Man gir en helhetsvurdering som sensor, og da tar man med seg egne kjepphester og preferanser inn i sensuren. Samtidig vet vi at i fag som norsk, så skriver elevene veldig komplekse svar, sier Gustaf Bernhard Skar ved NTNU til Aftenposten.
Skar sier han ikke kritiserer sensorene for å gjøre en dårlig jobb. Men han mener at graderingen og rammeverket de jobber innenfor ikke er godt nok.
I 2018 analyserte Aftenposten sluttkarakterene ved 200.000 eksamensvurderinger. I nesten 15.000 tilfeller var spriket mellom sensorene to karakterer eller mer. De fant også ut at i ni av ti tilfeller møttes de to eksterne sensorene på midten.
Regjeringen har nå nedsatt et vurderingsutvalg ledet av professor Tine Prøitz. De skal gjennomgå hele Nasjonalt kvalitetsvurderingssystem. Deres første rapport, som er en kunnskapsgjennomgang, skal leveres i januar 2023. En sluttrapport leveres innen utgangen av 2023. Den skal inneholde anbefalinger til regjeringen.