Gode på matematikk, dårlige på statistikk?

av Sigve Indregard

Norsk mate­ma­tikk­råd pub­li­se­rer annet hvert år en under­sø­kelse som får stor opp­merk­som­het. Det er en for­kunn­skaps­test av stu­den­te­nes mate­ma­tikkunn­ska­per, og den består av et lite opp­gave­sett som sen­des ut til uni­ver­si­te­ter og høgskoler.

Prø­ven bru­kes av mate­ma­tikk­rå­det kon­se­kvent for å argu­men­tere for vik­tig­he­ten av mate­ma­tikk­opp­læ­ring, og det blir frem­holdt at til­bake­gan­gen har vært sterk. Men prø­ven er så befengt med meto­diske svak­he­ter at det er vans­ke­lig å ta resul­ta­tene alvorlig.

Sam­men­lig­nin­gen med åtti­årene

I under­sø­kel­sen pre­sen­te­res det kon­ti­nu­er­lige linje­dia­gram­mer med utvik­lin­gen fra første gjen­nom­fø­ring i 1985 til og med 2009. Det ser vel­dig dår­lig ut. Kor­rekt svar-​​prosenten har falt fra over 70 til rundt 50.

Totalskår over tid

Bak dette dia­gram­met skju­ler det seg tre pro­ble­mer. For det første ble under­sø­kel­sen gjen­nom­ført i 85, 87, 89 og 93 — men ikke mel­lom 93 og 99. For det andre har sam­men­set­nin­gen av respon­den­ter end­ret seg bety­de­lig fra de første gjen­nom­fø­rin­gene til de siste. For det tredje har tes­ten end­ret seg — den ble revi­dert i 2000. Det er altså full­sten­dig menings­løst å sam­men­ligne resul­ta­tene fra åtti­tal­let og tid­lig nitti­tall med de nye resultatene.

Hvis vi så kap­per gra­fene på det sak­lige ste­det, altså år 2000, står vi frem­de­les igjen med noen feil­kil­der. Den vik­tigste feil­kil­den er at utval­get av stu­den­ter varie­rer sterkt fra år til år, uten at for­de­lin­gen opp­gis i rap­por­ten. Det eneste som opp­gis er at det var bety­de­lig flere real­fags­stu­den­ter i de første utval­gene (doh!). Den eneste måten å kor­ri­gere for dette tøvete utgangs­punk­tet er å dele grunn­la­get inn etter utdan­ning. Gjør vi det, for­svin­ner også teorien om at matte­kunn­ska­pene går tilbake:

Mat­te­re­sul­ta­ter for­delt på stu­die. Kilde: NMMR

Hvis vi over­ser år 2000, som så vidt jeg kan for­stå ble gjen­nom­ført med den gamle prø­ven, så har vi sett en klar for­bed­ring blant lærer­stu­den­tene, og en svak til­bake­gang på de andre matte­in­ten­sive stu­diene. Basert på denne gra­fen er det beti­me­lig å spørre seg hva alt maset er for, og spe­si­elt hvor­for NMR i hver eneste presse­mel­ding om dette drar frem lærerne.

Kjønn

NMR gjør den samme utvalgs­fei­len når de pre­sen­te­rer gjen­nom­snitt­lig skår for­delt på kjønn. En kjapp titt på lista over utdan­nin­ger over viser hvor­for: for­de­lin­gen av antall stu­den­ter i utval­get fra de for­skjel­lige utdan­nin­gene vil bestemme hvor­dan hvert kjønn gjør det. Tar man inn mange lærer­stu­den­ter, der det er mange kvin­ner, vil kvinne­ka­rak­te­ren bli truk­ket ned. Tar man deri­mot inn mange økonomi­stu­den­ter, vil de kvin­nene som er der trekke snit­tet rela­tivt sett opp.

Den sak­lige måten å gjøre dette på har de fak­tisk gjort litt senere i under­sø­kel­sen — tre sider etter at kapit­let om kjønn er fer­dig. Gra­fen viser resul­ta­ter for­delt på både kjønn og utdan­ning, og her for­svin­ner nes­ten all kjønns­for­skjel­len — men den er der fort­satt. I inge­ni­ør­ut­dan­nin­gen er kjønns­va­ria­be­len nes­ten helt utvisket.

Kal­ku­la­tor­bruk

NMR har over flere rap­por­ter frem­he­vet en teori om at kal­ku­la­tor­bruk med­fø­rer dår­li­gere resul­ta­ter i mate­ma­tikk. I så fall burde fer­dig­he­tene gått mer til­bake jo mer kal­ku­la­tor man brukte, men som vi har sett har resul­ta­tene vært nokså sta­bile på 2000-​​tallet. På den annen side var vel kal­ku­la­to­rer godt til­gjen­ge­lige på nitti­tal­let også; per­son­lig hus­ker jeg at vi hadde kal­ku­la­tor­be­grens­nin­ger på ung­doms­sko­len (96−99), men ikke i videre­gå­ende skole (99−02).

Selv om man kan vise til en kor­re­lans mel­lom kal­ku­la­tor­bruk og resul­ta­ter, impli­se­rer ikke dette noen årsaks­sam­men­heng. Det kan like godt være en tredje fak­tor som påvir­ker begge deler, eller en ren til­fel­dig, spu­riøs sam­men­heng. Det klas­siske eksemp­let er sam­men­hen­gen mel­lom pira­ter med sab­ler og glo­bal luft­for­uren­sing: da pira­tene for­svant, ble lufta for­uren­set. Det betyr imid­ler­tid ikke at pira­te­nes til­bake­tog for­år­sa­ket luftforurensingen.

I ste­det vel­ger NMR føl­gende reson­ne­ment (fra 2007-​​rapporten):

Resul­ta­tene kan tyde på at hyp­pig bruk av kal­ku­la­tor kan ha nega­tiv inn­virk­ning både på fer­dig­he­ter og begrepsforståelse. De som skårer best er de som sier at de bru­ker kal­ku­la­tor rela­tivt lite. Dette ser ut til å gjelde for alle utdan­nings­veier og er i sam­svar med de funn en gjorde i 2005.

Selv­rap­por­tert bruk av kal­ku­la­tor (på en skala fra ofte til sjel­den) føl­ger stu­den­tens skår på prø­ven nokså sla­visk. Dette skyl­des, i all hoved­sak, at folk som er dår­lige i mate­ma­tikk oftere tren­ger hjelp til utreg­nin­ger. Derav kal­ku­la­to­ren. NMR fore­slår vel ikke på den bak­grunn den tåpe­lige kon­klu­sjo­nen at det er kal­ku­la­to­ren som gjør stu­den­tene svake? NMR ville fått samme resul­ta­ter der­som de så på hvem som må ha hjelp av per­so­na­let for å bruke NSBs bil­lett­auto­ma­ter, og føl­ge­lig kon­klu­dert med at det er tog­per­so­na­let som gjør folk til tek­niske analfa­be­ter. Eller de kunne ha sjek­ket sam­men­hen­gen mel­lom hvor ofte noen sjek­ker bruks­an­vis­nin­gen for å mon­tere en del på en syk­kel, og kon­klu­dert med ska­de­lig­he­ten av bruksanvisninger.

Denne måten å under­søke feno­me­net gir på ingen måte grunn­lag for å hevde at kal­ku­la­tor ska­per sva­kere grunn­leg­gende fer­dig­he­ter i mate­ma­tikk, en tese NMR har lagt til grunn når de har vil­let endre eksa­mens­form, noe de har “arbei­det for i en årrekke”. Det er selv­sagt mulig at NMR har rett i at kal­ku­la­tor er dumt. Men dette lar seg bare under­søke ved kon­trol­lerte stu­dier, eller pseudo-​​kontrollerte stu­dier (f.eks. ved å under­søke effek­ten i land som end­rer policy). NMR hen­vi­ser bare til to artik­ler (Grønmo et.al. 2009a og Grønmo et.al. 2009b), og – lo and behold — de sier fak­tisk ikke det NMR hev­der de hevder.

Her er det NMR mener står i artiklene:

Grønmo (2009; 2009) set­ter den mar­kante til­bake­gan­gen i mate­ma­tikk­fer­dig­he­ter i videregående skole i sam­men­heng med hyp­pig kalkulatorbruk.

Grønmo et. al. (2009a) hand­ler ikke om videre­gå­ende skole, men om grunn­sko­len. Som et siste punkt i en lang liste med mulige årsa­ker til gode og dår­lige resul­ta­ter i mate­ma­tikk og naturfag:

Grønmo (2005) har, på basis av resul­ta­tene i TIMSS og PISA i 2003, argu­men­tert for at grunn­leg­gende fer­dig­he­ter i tall og tall­be­hand­ling er vik­tig for ele­vers utvik­ling av mate­ma­tisk kom­pe­tanse. Hun hev­der at en viss grad av auto­ma­ti­se­ring av fer­dig­he­ter er nød­ven­dig for at ele­vene skal utvikle denne kom­pe­tan­sen. For lite vekt på algo­rit­mer og fer­dig­he­ter, som tre­ning i mul­ti­pli­ka­sjons­ta­bel­len, vil kunne føre til at ele­vene ikke får opp­ar­bei­det det grunn­la­get de tren­ger for å videre­ut­vikle sine mate­ma­tiske kunn­ska­per og ferdigheter.

Grønmo et. al. (2009b) hand­ler fak­tisk om videre­gå­ende skole, for å være nøy­ak­tig stu­die­spe­sia­li­se­rende ele­ver med 3MX (noe som ikke er et krav for å komme inn på lærer­sko­len, for­res­ten). Den nev­ner kal­ku­la­tor­bruk noen ste­der blant mange andre årsaks­for­kla­rin­ger, og det nær­meste vi kom­mer NMRs påstand om inn­hol­det er vel disse to sitatene:

Videre kan man peke på at det har vært en omfat­tende bruk av kal­ku­la­tor og for­mel­bok med egne nota­ter det siste tiåret, som kan ha bidratt til mindre tre­ning i – og ved­li­ke­hold av – fer­dig­he­ter som derivasjon…

Det er et tanke­kors at Slo­ve­nia og Ita­lia, de to refe­ranse­lan­dene med best resul­tat tatt i betrakt­ning at de tes­ter hen­holds­vis vel 40 % og 20 % av årskullet i TIMSS Advan­ced, er de to lan­dene som synes å være mest til­bake­holdne med bruk av kal­ku­la­tor. Til­sva­rende tanke­vek­kende er det at de to lan­dene som har den mest mar­kerte til­bake­gan­gen fra for­rige stu­die, Norge og Sve­rige, utmer­ker seg som to land som synes å bruke kal­ku­la­tor mye.

Til dette er det å anføre at deri­va­sjon ikke inn­går i NMRs prøve­sett, og at det siste resul­ta­tet knap­past kan tas til inn­tekt for det vel­dig bas­tante sita­tet over. TIMSS Advan­ced omfat­ter kun 3MX-​​klassene, og viser ganske rik­tig at norske lærere har lite trykk på auto­ma­ti­se­ring og pug­ging av algo­rit­mer, gange­ta­bel­ler mm. Men at dette skal være på grunn av “hyp­pig kal­ku­la­tor­bruk” frem­står som tenden­siøst. Mer sann­syn­lig skyl­des dette at lære­pla­nene i Norge i liten grad leg­ger vekt på pug­ging av algo­rit­mer, gange­ta­bel­ler mm. Det kan vi selv­sagt dis­ku­tere, men å gjøre det om til en for­dum­mende kalkulator-​​eller-​​ikke-​​debatt er et steg i feil retning.

Sig­ni­fi­kante avvik fra god ana­lyse av utvikling

Rap­por­ten sier: “fram­gan­gen fra 2007 til 2009, som … er omtrent 1,5 %, er så liten at den ikke kan sies å være sig­ni­fi­kant.” For det første har jeg vans­ke­lig for å tro at det kan være rik­tig i en under­sø­kelse med over 5000 respon­den­ter, i hvert fall med den behand­lin­gen av data vi så langt har sett i rap­por­ten, der alt bare klum­pes sam­men til en diger svarhaug.

For det andre opp­gir de ikke noe sted hvor­dan de har reg­net seg frem til det. For det tredje opp­gir de ikke hvilke krav de set­ter til kon­fi­dens. Er det 90 %? 95 %? 99 %? Eller er vi på romferge-​​feilmarginer — 99,9 % konfidens?

For det fjerde nevnte ikke rap­por­ten i 2007 noe om at ned­gan­gen på 1,5 % ikke var sig­ni­fi­kant. 2007-​​rapporten sa fak­tisk det stikk mot­satte:

2007-​​undersøkelsen bekref­ter at vi nå i enda høy­ere grad enn tid­li­gere har stu­den­ter på de mate­ma­tikk­re­vende kur­sene som i stor grad har et util­strek­ke­lig grunn­lag i mate­ma­tikk å bygge på for høy­ere utdanning.

Og videre:

Til­bake­gan­gen er på 1,4 pro­sent­po­eng i gjen­nom­snitt og kan ikke ses på som ubetydelig.

Mora­len ser ut til å være at til­bake­gan­ger på 1,4 pro­sent­po­eng er “ikke ube­ty­de­lig”, mens frem­gan­ger på 1,5 pro­sent­po­eng er helt uten betyd­ning. For å si det sånn: Dette vek­ker ikke min con­fi­dence. For meg ser det ut som om NMR har dre­vet data mining: De leter med lys og lyk­ter etter tall og resul­ta­ter som pas­ser deres agenda, og over­ser glatt data som strit­ter mot.

Vi kan også regne ut om det er sig­ni­fi­kant selv.

I rap­por­ten ser vi at respon­den­te­nes skå­rer for­de­ler seg omtrent nor­malt rundt et gjen­nom­snitt på 21.37 poeng (av 44 mulige), med stan­dard­av­vik på 9.554 og ca. 5500 respon­den­ter. Med mindre andre for­be­hold trek­kes inn er da et 95 % kon­fi­dens­in­ter­vall lik:

\( 21.37 \pm 1.96 \times \frac{9.554}{\sqrt{5500}} = 21.37 \pm0.13 \)

Vi er altså 95 % sikre på at det vir­ke­lige populasjons-​​gjennomsnittet lig­ger mel­lom 21.24 og 21.40, eller målt i pro­sent rik­tig, mel­lom 48.27 og 48.64 pro­sent. For­bed­rin­gen på 1.5 pro­sent­po­eng er, med mindre noen andre for­be­hold trek­kes inn, sær­de­les sig­ni­fi­kant — nes­ten syv hele stan­dard­av­vik betyr at resul­ta­tet er sig­ni­fi­kant på mer en 99.99999 %-nivået.

Det for­fat­terne tro­lig har tenkt, er at kon­fi­dens­in­ter­val­lene blir større på grunn av a) dår­lig samp­ling (uvisst om det er et til­fel­dig utvalg) og b) dår­lig stra­ti­fi­se­ring (utdan­nings­grup­pene i under­sø­kel­sene end­rer kro­nisk stør­relse). Det som er under­lig, er at disse for­be­hol­dene ikke for­kla­res og ikke tas i andre sam­men­hen­ger. Hvis de fak­tisk mener dette, viser under­sø­kel­sen nøy­ak­tig ingen­ting — sterkt i strid med det tid­li­gere rap­por­ter har hev­det. Til 2009-​​rapportens for­svar skal det sies at den er meget for­sik­tig med å hevde noe som helst om hva resul­ta­tene betyr.

På dette tids­punk­tet måtte jeg nes­ten sjekke hvem de opp­gitte for­fat­terne er. I 2009-​​rapporten er de en sti­pen­diat ved insti­tutt for spe­sial­pe­da­go­gikk (UiO), en første­ama­nu­en­sis i mate­ma­tikk og sta­ti­stikk (UiT) og en pro­fes­sor i mate­ma­tikk (UiO). De er alle tre styre­med­lem­mer i Mate­ma­tikk­rå­det. I 2007-​​rapporten var de en høg­skole­lek­tor og en første­ama­nu­en­sis som dri­ver mate­ma­tikk­opp­læ­ring for lærere, begge fra HiT.  Jeg vel­ger å la den inter­es­serte leser sjekke opp nav­nene selv, der­som det har interesse.

Kon­klu­sjon

Mate­ma­tikk­rå­det får karak­te­ren 2. Selv om inn­sat­sen og enga­sje­men­tet hol­der til en fem­mer, må den usak­lige eks­tra­po­le­rin­gen av råskå­rene fra under­søks­el­sen trekke kraf­tig ned. Et råd for mate­ma­tikk bør ha sta­tis­tiske grunn­reg­ler under huden, og mate­ma­tikk­læ­rere med sta­tis­tisk bak­grunn kan umu­lig være bekjent av rap­por­tens innhold.

Jeg er vel­dig bekym­ret for at denne typen lett­vint syn­sing om norsk skole byg­ger opp et bilde av den norske sko­len i totalt for­fall. Det er ingen under­sø­kel­ser som tyder på at norske stu­den­ter i 19-​​årsalderen er vesent­lig dår­li­gere rus­tet enn tid­li­gere. Det er deri­mot mye annet spen­nende i under­sø­kel­sene. Mye tyder på at norske barn kom­mer sent i gang med læring av grunn­fer­dig­he­ter, og mye tyder på at vi svik­ter de svakeste.

Det er for­øv­rig godt mulig at rådet har rett i at norske stu­den­ter har svake eller sva­kere mate­ma­tikk­fer­dig­he­ter. Pro­ble­met er at en slik god sak aldri bør frem­mes ved tenden­siøs bruk av sta­ti­stikk, der tal­lene att­på­til viser noe annet enn det hoved­bil­det NMR trek­ker frem i presse­mel­din­ger og inter­vjuer. Det er rett og slett for lett for alle som har liten entu­si­asme for mate­ma­tikk å overse denne typen agitasjon.

Kil­der:

Nøt du denne? Da vil du kan­skje like:

flattr this!