17.2 Forklaringer og detaljer for chi i anden-test
I sidste afsnit kiggede vi på hvordan man gennemførte en \(\chi ^2\)-test for uafhængighed. Konkret fandt vi ud af, om der var afhængighed mellem køn og yndlingskage. Vi vil nu se på lidt flere detaljer og forklaringer til de
forskellige skridt.
Hypoteser
Sådan som vores \(\chi ^2\)-test er skruet sammen, er nulhypotesen altid ”uafhængighed”. Men man kan formulere den på forskellige måder. Man kan f.eks. skrive “Der er uafhængighed mellem…” eller “Der er ingen
sammenhæng imellem…”. Det er det samme. Den alternative hypotese er altid ”ikke uafhængighed” eller ”sammenhæng”.
Vi vil forklare formlen med udgangspunkt i drenge, som fortrækker chokoladekage. Vi har tabellen med observerede værdier.
.
Dreng
Pige
Total
Drømmekage
\(13\)
\(5\)
\(18\)
Chokoladekage
\(14\)
\(11\)
\(25\)
Andet
\(6\)
\(6\)
\(12\)
Total
\(33\)
\(22\)
\(\textbf {55}\)
Andelen af personer i undersøgelsen, som fortrækker chokoladekage, er givet ved \(\frac {25}{55}\). Hvis \(H_0\) er rigtig (uafhængighed mellem køn og kage), må andelen af drenge som fortrækker chokoladekage være den
samme som andelen for de to køn tilsammen. Dvs. andelen af drenge som fortrækker chokoladekage må også være \(\frac {25}{55}\). Da der er \(33\) drenge, vil vi forvente, at antallet af drenge i stikprøven, som fortrækker
chokoladekage, er:
a) Gentag ovenstående argumentation, men for piger som foretrækker drømmekage i stedet:
Løsning 17.2.1
a) Andelen af personer i undersøgelsen, som fortrækker drømmekage er givet ved \(\frac {18}{55}\). Hvis \(H_0\) er rigtig (uafhængighed mellem køn
og kage), må andelen af piger, som fortrækker drømmekage være den samme som andelen for de to køn tilsammen. Dvs. andelen af piger, som fortrækker drømmekage, må også være \(\frac {18}{55}\). Da det er \(22\) piger vil
vi forvente at antallet af piger i stikprøven, som fortrækker drømmekage, er:
Årsagen til at vi kræver minimum \(5\) i hver af de forventede værdier, har noget at gøre med de \(\chi ^2\)-fordelinger, vi bruger til at finde \(p\)-værdien. Teststørrelsen følger kun tilnærmelsesvis disse fordelinger, og er
stikprøven lille, bliver \(p\)-værdien upræcis.
bliver stor, når forskellen mellem de observerede og de forventede værdier er stor. Nævneren afhænger ikke af denne forskel. Så en stor forskel på de observerede og de forventede værdier vil give en stor værdi af brøken.
Signifikansniveau og \(p\)-værdier
Når vi laver en chi i anden-test, undersøger vi om de observerede værdier svarer de forventede værdier. Men fordi de observerede værdier kun udgør en stikprøve, kan vi ikke regne med at de svarer fuldstændig til de forventede. Det
kan jo være, vi f.eks. har fanget særligt mange drenge, som elsker drømmekage. Derfor kan man ikke forkaste \(H_0\), bare fordi de observerede værdier ikke svarer helt til de forventede. Det er kun når det ser meget skævt ud, at vi
forkaster \(H_0\). Vi bruger \(p\)-værdien til at fastlægge, hvor skæve vores observerede værdier er i forhold til de forventede. Denne værdi findes i GeoGebra ved at bestemme:
\[P(X \geq \chi ^2)\]
Vi skal nu se på hvad den sandsynlighed udtrykker helt præcis. Lad os sige at vi tester en sand \(H_0\) flere gange. Dvs. vi laver flere stikprøver. Hver gang vil vi få en lidt forskellig teststørrelse, da vi må forvente lidt variation, alt
efter hvad stikprøven lige består af. Men hvis \(H_0\) er sand, vil vi ikke forvente en meget stor teststørrelse. Når vi åbner \(\chi ^2\)-fordelingen i GeoGebra ser vi den fordeling, der beskriver sandsynligheden få forskellige
værdier for teststørrelsen. Sandsynligheden \(P(X \geq \chi ^2)\) er altså sandsynligheden for at få en teststørrelse der er større end eller lige så stor som den vi har, hvis vi gik ud og lavede den samme \(\chi ^2\)-test, men på
en ny stikprøve. Så vi kan altså beskrive \(p\)-værdien på følgende måde:
Tallet \(p\)-værdien er sandsynligheden for at få en teststørrelse, som er ligeså stor eller endnu større end den vi har fået, under forudsætning af at \(H_0\) er sand.
Hvis vi får en \(p\)-værdi på \(2\%\), betyder det altså at det kun er i \(2\%\) af stikprøverne, at man vil få ligeså skæve observerede værdier som dem vi har fået i undersøgelsen (under forudsætning af at \(H_0\) er sand). Hvis
det kun er i \(2\%\) af tilfældene, man vil få ligeså skæve observerede værdier, som dem vi har fået i undersøgelsen, kan vi så stadig tro på \(H_0\)? Hvor skal vi sætte grænsen for, hvor usandsynlige vores observerede værdier må
være? Den grænse fastlægges med signifikansniveauet, som normalt vælges til \(5\%\).
Vi kender begrebet ”signifikant” fra daglig tale, hvor det betyder ”meget” eller ”betydelig”. I statistik er betydningen lidt anderledes. Når vi forkaster \(H_0\), så siger vi, at der er en signifikant sammenhæng, mens vi
snakker om ikke signifikante sammenhænge i det tilfælde vi konstatere forskelle på observerede og forventede værdier, som ikke er store nok til at vi forkaster \(H_0\). Så her betyder signifikant altså, at der er en
sammenhæng, som med rimelig sandsynlighed ikke skyldes en tilfældighed ved udtagelsen af stikprøven.
Type 1 og type 2 fejl
Når vi vælger signifikansniveauet, er vi i et dilemma. Vælger vi det meget lavt, så skal der meget til før, at vi forkaster \(H_0\). Så selvom vores observerede værdier er meget skæve i forhold til de forventede, så forkaster vi ikke
\(H_0\). Undlader vi at forkaste en nulhypotese, som rent faktisk er falsk, siges det at være en type 2 fejl.
Vælger vi signifikansniveauet højt, virker det omvendt. Så vil vi have en tendens til at forkaste \(H_0\), selvom de observerede værdier ikke afviger specielt meget fra de forventede. Dvs. vi risikere at forkaste en sand \(H_0\). Gør vi
det, kaldes det en type 1 fejl.
Usandsynlige observerede værdier kan fremkomme på to måder. Det kan være fordi \(H_0\) er forkert, eller fordi vi bare har været uheldige med stikprøven. Matematikken kan ikke hjælpe os til at afgøre hvilken en af situationerne
vi er i. Hvis vi vælger \(\alpha =5\%\) betyder et at vi forkaster når de observerede værdier er så skæve at det kun sker i \(5\%\) af tilfældene hvor \(H_0\) er sand. Men det må jo medføre at er en \(5\%\) risiko for at vi forkaster
en sand \(H_0\) – altså at lave en type 1 fejl. Så signifikansniveauet er sandsynligheden for at begå en type 1 fejl.
Øvelse 17.2.3
Antag at vi laver en \(\chi ^2\)-test med et signifikansniveau på \(10\%\).
a) Antag at \(H_0\) er sand. Hvad er sandsynligheden for at begå en fejl af type 1?
b) Antag at \(H_0\) er falsk. Hvad er sandsynligheden for at begå en fejl af type 2? Tænk lidt over det og tjek så facit.
Løsning 17.2.3
a) Den er \(10\%\)
b) Det står der ikke noget om i teksten, så det er måske et lidt unfair spørgsmål. Men tænker man sig om, så er det klart, at man ikke kan udtale sig om
denne sandsynlighed. Det kommer jo an på, hvor forkert \(H_0\) er. Tester man f.eks. uafhængighed mellem kromosomsammensætning hos mennesker (’XX’ eller ’XY’) og køn, så er der \(0\%\) sandsynlighed for begå en type 2 fejl.
Antallet af frihedsgrader
Antallet af frihedsgrader det antal af observerede værdier vi skal kende for at for at kunne regne resten af de observerede værdier ud. Lad os se på et eksempel:
.
Dreng
Pige
Total
Drømmekage
\(13\)
\(18\)
Chokoladekage
\(14\)
\(11\)
\(25\)
Andet
\(6\)
\(6\)
\(12\)
Total
\(33\)
\(22\)
\(\textbf {55}\)
Det ses at jeg har fjernet observationen med antallet af piger som valgte drømmekage. Men den information kan vi genskabe, da vi ved at der var 18 personer som valgte drømmekage og 13 af dem var drenge. Vi regner:
\[18-13=5\]
Altså skal der stå \(5\) i det tomme felt. Det er klart at der er flere observationer som kan slettes og derefter genskabes. Vi kan faktisk slette hele den sidste række og hele den sidste sølje.
.
Dreng
Pige
Total
Drømmekage
\(13\)
\(18\)
Chokoladekage
\(14\)
\(25\)
Andet
\(12\)
Total
\(33\)
\(22\)
\(\textbf {55}\)
Øvelse 17.2.4
Beregn ud fra ovenstående tabel:
a) Antallet af piger som valgte chokoladekage.
b) Antallet af drenge som valgte andet.
Løsning 17.2.4
a) \(11\)
b) \(6\)
Det klart at når vi har slette en række og en søjle, så kan vi ikke slette mere uden at miste muligheden for at genskabe de slettede værdier. Antallet af værdier der er tilbage efter vi har slette en række og en søjle må være
a) Det er klart. Antallet af rækker der er tilbage er nemlig:
\[\textrm {antal rækker} -1)\]
og antallet af søjler der er tilbage er
\[\textrm {antal søjler} - 1\]
og når man gange de to får man selvfølgelig antallet af felter der er tilbage (felter med observationer kun – ikke medregnet totalerne)
Årsagen til at det hedder ”frihedsgrader” er, at værdierne i de felter der er tilbage er ”frie” i den forstand, at de ikke er fastlagt ud fra resten.
Kritiske værdier
I en \(\chi ^2\)-test regner vi \(\chi ^2\) som et mål for størrelsen af afvigelsen mellem det forventede og det observerede. Er afvigelsen for stor forkaster vi. Indtil videre har vi afgjort dette ved at sammenligne \(p\)-værdien
med signifikansniveauet. Dette kræver dog et værktøj til at finde \(p\)-værdien. Har man ikke sådan et værktøj er der en anden mulighed, nemlig at lave en tabel som viser hvor stor \(\chi ^2\) må være før vi forkaster - disse
værdier kaldes kritiske værdier. Et udsnit af en sådan tabel ses nedenunder:
Eksempel 17.2.1 Antag at vi har vi er ved at lave en \(\chi ^2\)-test med et signifikansniveau på \(1\%\), med 2 frihedsgrader og vi har fået \(\chi ^2=5{,}13\). Vi finder nu den kritiske værdi svarende til
\(\alpha =1\%\). Vi kigger i den sidste søjle og ser at \(\chi ^2_{0{,}99}=9{,}21\). For at finde ud af om vi skal forkaste, skal vi sammenligne med \(\chi ^2=5{,}13\) med \(\chi ^2_{0{,}99}=9{,}21\). Da vores \(\chi
^2\)-værdi er mindre end den kritiske værdi vil vi ikke forkaste \(H_0\).
Læg mærke til at det fungerer omvendt i forhold til \(p\)-værdi. Vi forkaster når \(p\)-værdien er under signifikansniveauet, mens den teststørrelsen skal være over den kritiske værdi før vi forkaster.
Øvelse 17.2.6
Antag at vi har vi er ved at lave en \(\chi ^2\)-test et signifikansniveau på \(5\%\) med 3 frihedsgrader og vi har fået \(\chi ^2=8\).
a) Afgør om vi skal forkaste \(H_0.\)
Løsning 17.2.6
a) Vi forkaster da \(8>7{,}81\).
Vi vil nu forklare hvor de kritiske værdier i tabellen kommer fra. Fra tidligere ved vi, at vi forkaster hvis \(p\)-værdien er mindre end eller lig med signifikansniveauet. Derfor kan vi finde de kritiske værdier ved at finde den \(\chi
^2\)-værdi som giver en \(p\)-værdi, der er lig med signifikansniveauet, da den vil markere grænsen, hvor vi forkaster.
Eksempel 17.2.2 Vi vil nu eftervise at det er rigtigt, at hvis signifikansniveauet er på \(10\%\) i en test med 2 frihedsgrader, så vil vi have en kritisk værdi på \(4{,}61\). Vi åbner
sandsynlighedslommeregneren i Geogebra, finder \(\chi ^2\)-fordelingen og indskriver antallet af frihedsgrader og signifikansniveauet der hvor vi normalt aflæser \(p\)-værdien:
Vi kan se, at den \(\chi ^2\)-værdi som svare til et signifikansniveau på \(10\%\) er \(4{,}61\).
Øvelse 17.2.7
a) Bestem den kritiske værdi for en \(\chi ^2\)-test med 6 frihedsgrader og et signifikansniveau på \(5\%\).
Løsning 17.2.7
a) \(\chi ^2_{0{,}95}=12{,}59\)
Man kan undre sig lidt over betegnelsen for de kritiske værdier. Hvorfor skriver vi f.eks. \(\chi ^2_{0{,}95}\) for den kritiske værdi, når signifikansniveauet er på \(5\%\). For et signifikansniveau på \(5\%\) er den kritiske værdi
\(\chi ^2_{\textrm {kritisk}}\) den \(\chi ^2\)-værdi, hvor \(P(X\geq \chi ^2_{\textrm {kritisk}})=5\%\). Men dette er jo det samme som den \(\chi ^2\)-værdi, hvor \(P(X\leq \chi ^2_{\textrm
{kritisk}})=95\%\), hvilket er det vi kalder 0,95-fraktilen og betegner med \(\chi ^2_{0{,}95}\).
Øvelse 17.2.8
a) Hvordan betegnes den kritiske værdi når signifikansniveauet er på \(7\%\)?
Løsning 17.2.8
a) Den betegnes \(\chi ^2_{0{,}93}\)
Bidrag til teststørrelsen
I en \(\chi ^2\)-test for uafhængighed undersøger vi om stikprøven er i overensstemmelse med \(H_0\). Altså om vi skal forkaste \(H_0\). Det er dog også interessant hvordan stikprøven afviger fra \(H_0\). Lad os sige,
at vi tester om der er sammenhæng mellem køn og politisk overbevisning (stemmer rødt eller blåt). Her er det ikke kun interessant om der en forskel, men også i hvilken retning den er. Har kvinder en højere tilbøjelighed til at
stemme rødt end mænd? Eller er det mon omvendt?
Vi vender tilbage til undersøgelsen med sammenhæng mellem køn og kage:
De enkelte led kaldes bidragene til teststørrelsen. Første bidrag er altså:
\[ \frac {(13-10{,}8)^2}{10{,}8} = 0{,}45\]
Vi regner du resten af bidragene i en tabel:
.
Dreng
Pige
Drømmekage
\(0{,}45\)
\(0{,}67\)
Chokoladekage
\(0{,}067\)
\(0{,}1\)
Andet
\(0{,}2\)
\(0,{3}\)
Vi ser nu at de største bidrag kommer fra drømmekage. Specielt piger og drømmekage. Vi har observeret at der er 5 piger som fortrækker drømmekage, men da vi regnede de forventede værdier fandt vi at resultatet var \(7{,}2\).
Det er jo ikke en særlig stor forskel, og vi endte jo også at beholde \(H_0\). Så vi kan sige at den største afvigelse fra \(H_0\) var pigernes manglende lyst til at spise drømmekage, men at denne forskel ikke var signifikant.
Øvelse 17.2.9
En matematiklærer undersøgte i 2022, hvordan det så ud med fritidsaktiviteter på de forskellige årgange på de gymnasiale uddannelser i Danmark. Tre gymnasieklasser (business-science, Niels Brock, HHX), en på hver årgang, blev
stillet spørgsmålet:
Går du til en fritidsaktivitet som f.eks. fodbold, guitar eller porcelænsmaling?
Resultatet var
.
Går til en noget
Går ikke til noget
Total
1. år
\(15\)
\(15\)
\(30\)
2. år
\(8\)
\(7\)
\(15\)
3. år
\(4\)
\(12\)
\(16\)
Total
\(27\)
\(34\)
\(\textbf {61}\)
Undersøg med et signifikansniveau på \(5\%\) om der er sammenhæng mellem årgang og tendens til at gå til fritidsaktiviteter. Du skal gøre det uden at anvende GeoGebra. Hvis der er en sammenhæng, så undersøg
hvordan sammenhængen er. Alstå. du skal lave en \(\chi ^2\)-test hvor du skal:
a) Opstille hypoteser.
b) Regne forventede værdier.
c) Regne teststørrelsen
d) Bestemme antallet af frihedsgrader
e) Afgøre om \(H_0\) skal forkastes ud fra de kritiske værdier.
f) Analysere bidragene til teststørrelsen i sammenhæng med de observerede og forventede værdier.
g) Skriv en konklusion af din undersøgelse. Hvad har du undersøgt og hvad er du nået frem til. Det skal fylde et par linjer.
Løsning 17.2.9
a) \(H_0\): Der er uafhængighed mellem årgang tilbøjelighed til at gå til en fritidsaktivitet.
\(H_1\): Der er ikke uafhængighed mellem årgang tilbøjelighed til at gå til en fritidsaktivitet.
b) Forventende værdier:
.
Går til en noget
Går ikke til noget
Total
1. år
\(13{,}28\)
\(16{,}72\)
\(30\)
2. år
\(6{,}64\)
\(8{,}36\)
\(15\)
3. år
\(7{,}08\)
\(8{,}92\)
\(16\)
Total
\(27\)
\(34\)
\(\textbf {61}\)
c) \(\chi ^2=3{,}31\)
d) Der er 2 frihedsgrader.
e) Den kritiske værdi er \(5{,}99\) så vi forkaster ikke \(H_0\)
f) Bidragene ser således ud:
.
Går til en noget
Går ikke til noget
1. år
\(0{,}22\)
\(0{,}18\)
2. år
\(0{,}28\)
\(0{,}22\)
3. år
\(1{,}34\)
\(1{,}07\)
Bidragene er klart højest for 3. år. Sammenligner man observerede og forventede værdier, ser ud til at der er færre elever på 3. går til fritidsaktiviteter. Sammenhængen er dog ikke signifikant (jvf. spørgsmål e), så det kan ligeså
godt være en tilfældighed.
g) Vi har undersøgt om der er nogen sammenhæng mellem årgang og tendens til at dyrke fritidsaktiviteter. På baggrund af de indsamlede data har vi ikke
kunne konstatere nogen signifikant forskel på de 3 årgange.
Man kunne godt undre sig over resultatet af ovenstående øvelse. Kigger man på de observerede værdier ser det ud til at der er en markant tilbagegang i andelen af elever som dyrker fritidsaktiviteter når de når til 3. år. Hvorfor ender
vi så alligevel med at beholde \(H_0\)? Det skyldes at det er relativt få elever der skaber den tilsyneladende store ændring på 3. år. Vi skal kun flytte 4 (ud af de 61) elever i undersøgelsen og så har vi en ca. 50/50 fordeling på alle tre
årgang. Det kunne jo sagtens være en tilfældighed, at de bare var lidt mere dovne, i den klasse vi har spurgt (sorry 3.s 2022). Det ville være smart at lave en undersøgelse med nogle flere klasser, men det er jeg desværre for doven til.