Forstil dig, at du ejer en æbleplantage. En del af æblerne er du nødt til at kassere, da de ikke lever op til kvalitetskravene. Du vil nu gerne undersøge, hvor stor en andel af æblerne, du skal kassere. Samtlige æbler på plantagen
kalder vi for populationen. Det ville være for stort et arbejde at undersøge hele populationen, så du udtager en stikprøve. Lad os sige, at du finder ud
af at \(10\%\) af æblerne i din stikprøve skal kasseres. Kan du så være sikker på at \(10\%\) af æblerne i populationen skal kasseres? Selvfølgelig ikke. Det kunne f.eks. være at din stikprøve tilfældigvis indholdte særlig mange
dårlige æbler, og at de \(10\%\) derved var misvisende. Vi siger at de \(10\%\) er et estimat for andelen af dårlige æbler (i populationen) og betegner det med \(\hat {p}\). Hvis vi vil udtale os med rimelig sikkerhed, er
vi nødt til at angive et interval rundt om vores estimat. Det kunne f.eks. se således ud:
\[[8\%;12\%]\]
Hvis vi er \(95\%\) sikre på, at andelen af dårlige æbler (for populationen) ligger i dette interval, kalder vi intervallet for et \(95\%\)-konfidensinterval.
Konfidensintervaller i GeoGebra
Vi skal nu se hvordan vi bestemmer et sådan konfidensinterval i GeoGebra. Lad os sige, at vi har udtaget \(500\) æbler og \(50\) af dem var dårlige. Vi åbner sandsynlighedsregneren i GeoGebra og vælger ”Statistik”.
Vi vælger nu ”Z interval for andel”:
Vi skal nu udfylde tre felter:
.
Konfidensniveau
Her skriver vi den sikkerhed (angivet som decimaltal) vi ønsker.
Successer
Her skriver, vi hvor mange dårlige æbler vi har fået.
\(n\)
Her skriver vi stikprøvestørrelsen.
Vi vil gerne have \(95\%\) sikkerhed, så vi skriver \(0{,}95\) som ”Konfidensniveau”. Vi har \(50\) dårlige æbler i stikprøven, så det skriver vi som ”Successer”. Ved \(n\) skriver vi \(500\), da vi har udtaget en stikprøve på
\(500\) æbler. Det giver:
Nederst ud fra ”Interval” står der \(0{,}1\pm 0{,}026296\). De \(0{,}1\) er vores estimat for andelen af dårlige æbler. Vi har altså
\[\hat {p}=0{,}1\]
Det er ikke overraskende at \(\hat {p}=0{,}1=10\%\), da \(50\) ud af \(500\) er \(10\%\). Vi kan nu aflæse konfidensintervallet i screenshottet. Det er det lukkede interval fra ”Nedre grænse” til ”Øvre grænse”, hvilket er
intervallet:
\[[0{,}074;0{,}126]\]
Det betyder, at vi med \(95\%\) sikkerhed kan sige, at mellem \(7{,}4\%\) og \(12{,}6\%\) af alle æblerne i populationen er dårlige. Så vores bedste bud på andelen af dårlige æbler er \(10\%\), men hvis vi skal tage forbehold for
usikkerhed, vil vi begrænse os til at sige, at mellem \(7{,}4\%\) og \(12{,}6\%\) af alle æblerne i plantagen er dårlige.
Øvelse 16.1.1
En elev ville undersøge ungdomsarbejdsløsheden i Danmark og spurgte 200 repræsentativt udvalgte unge, om de var i arbejde. Der var 32 ud af de 200 som ikke var i arbejde.
a) Angiv et estimat af ungdomsarbejdsløsheden.
b) Bestem et \(95\%\)-konfidensinterval for ungdomsarbejdsløsheden og forklar, hvad det betyder.
c) Bestem et \(90\%\)-konfidensinterval for ungdomsarbejdsløsheden og forklar, hvad det betyder.
d) Hvilket interval er bredest? \(90\%\) eller \(95\%\)-konfidensintervallet?
Løsning 16.1.1
a) \(\hat {p}=0{,}16\)
b) Konfidensintervallet er \([0,11;0,21]\), hvilket betyder at vi med \(95\%\)-sikkerhed kan sige, at ungdomsarbejdsløsheden ligger mellem \(11\%\) og
\(21\%\)
c) Konfidensintervallet er \([0{,}12;0{,}20]\), hvilket betyder at vi med \(90\%\)-sikkerhed kan sige, at ungdomsarbejdsløsheden ligger mellem
\(12\%\) og \(20\%\)
d) Det er \(95\%\)-konfidensintervallet. Vi vil senere se på hvorfor.
Konfidensintervaller ved beregning
Vi skal nu se på, hvordan man beregner konfidensintervaller ved hjælp af en formel. Før vi opstiller formlen, skal vi se på noget teori, der ligger bag formlen. Vi bliver ved æbleplantagen. Når vi udtager \(500\) æbler, vil antallet af
dårlige æbler være binomialfordelt. Vi husker nemlig, at en binomialfordeling består af \(n\) uafhængige forsøg, hvor hvert forsøg har en successandsynlighed på \(p\). I vores tilfælde er \(n=500\), fordi vi udtager \(500\) æbler.
Sandsynlighedsparameteren \(p\), er sandsynligheden for et dårligt æble, og den kender vi ikke. Det er faktisk den, vi gerne vil finde, da sandsynligheden for at få et dårligt æble, må være det samme som andelen af dårlige æbler (i
populationen). Altså, hvis der \(10\%\) sandsynlighed for at få et dårligt æble, må det være fordi \(10\%\) af æblerne er dårlige. Så vi leder efter en formel for et konfidensinterval for sandsynlighedsparameteren i en
binomialfordeling.
Før vi kan beregne konfidensintervallet, har vi brug for nogle forskellige størrelser. For det første har vi brug for et estimat for \(p\). Det finder vi med formlen:
\[\hat {p}=\frac {x}{n}\]
Her er \(\hat {p}\) estimatet, \(x\) er antal succeser og \(n\) er antal forsøg. I eksemplet med æbler har vi \(n=500\), fordi der er \(500\) æbler i stikprøven, \(x=50\) fordi der var \(50\) dårlige æbler. Estimatet \(\hat {p}\)
bliver så:
\[\hat {p}=\frac {50}{500}=0{,}1\]
Vi har også brug for nogle ”fraktiler i en normalfordeling”. Dem som afslutter matematik på A-niveau vil lære hvad det betyder. For resten af os, er det bare nogle tal, vi finder i en tabel:
I tabellen ser vi fraktilerne, der betegnes med \(z_{1-\frac {\alpha }{2}}\), for forskellige konfidensniveauer. Vi husker, at konfidensniveauet betyder den sikkerhed, vi ønsker vores konfidensinterval skal have.
Sætning 16.1.1 Hvis \(p\) opfylder at \(n\cdot \hat {p}\cdot (1-\hat {p})>9\) kan et konfidensinterval \(I\) for
sandsynlighedsparameteren \(p\) i en binomialfordeling bestemmes ved formlen:
\(\left (1-\frac {\alpha }{2}\right )\)-fraktilen i standardnormalfordelingen.
Kravet \(n\cdot \hat {p}\cdot (1-\hat {p})>9\) skal ses som en tommelfingerregel. Formlen giver ikke det eksakte konfidensinterval, men kun en tilnærmelse. Tilnærmelsen bliver bedre jo højere \(n\cdot \hat {p}\cdot
(1-\hat {p})\) er. GeoGebra bruger i øvrigt samme formel, så vi bør egentlig også tjekke kravet, når vi bruger GeoGebra.
Øvelse 16.1.2
Mor Jette laver en mønt ud af ler og kaster den 80 gange. Hun får 34 plat. Hun vil nu gerne bestemme et konfidensinterval for sandsynligheden for at slå plat.
a) Bestem \(\hat {p}\).
b) Regn \(n\cdot \hat {p}\cdot (1-\hat {p})\) og tjek om kravet \(n\cdot \hat {p}\cdot (1-\hat {p})>9\) er opfyldt.
c) Bestem ved beregning et \(95\%\)-konfidensinterval for \(p\).
d) Mor Jette mener at mønten er fair, men Jessica Priscilla tror ikke på hende. De bliver enige om at spørge dig. Hvad siger du til dem?
Løsning 16.1.2
a) \(\hat {p}=0{,}425\).
b) \(n\cdot \hat {p}\cdot (1-\hat {p})=19{,}55\). Da \(19{,}55>9\) er kravet opfyldt.
c) \([0{,}32;0{,}53]\)
d) Mønten er fair hvis \(p=0{,}5\). Da \(0{,}5\) ligger i intervallet \([0{,}32;0{,}53]\) kan vi ikke med rimelig sikkerhed afvise at mønten er fair.
Bredden af konfidensintervaller
Når vi bestemmer konfidensintervaller, er der to ting, vi gerne vil have opfyldt:
1. Konfidensniveauet er højt. Det betyder nemlig, at vi er meget sikre på at intervallet indeholder den sande værdi for \(p\). I eksemplet med æblerne var
konfidensniveauet \(95\%\), hvilket betød, at vi var \(95\%\) sikre på, at andelen af dårlige æbler lå mellem \(7{,}4\%\) og \(12{,}6\%\). Det havde selvfølgeligt været bedre, hvis vi kunne være f.eks. \(99\%\) sikre på, at andelen
lå imellem de to værdier.
2. Intervallet er smalt. Det betyder nemlig, at vi siger noget mere præcist om, hvad \(p\) kan være. I forhold til æblerne gik intervallet fra \(7{,}4\%\) til
\(12{,}6\%\). Det betyder, at andelen af dårlige æbler (sandsynligvis) ligger et eller andet sted imellem de to værdier. Det ville selvfølgelig være bedre (mere præcist), hvis vi f.eks. kunne sige, at andelen (sandsyligvis) lå mellem
\(9\%\) og \(11\%\).
Det viser sig desværre (og ikke helt overraskende), at det er svært at opnå begge dele på en gang. Konfidensniveauet vælger vi selv, og derfor er der ikke så meget at sige til det, så vi vil nu fokusere på, hvad der afgør bredden af
intervallet. Vi vil tage udgangspunkt i sætning 16.1.1. Ifølge sætningen er intervallet givet ved
Sætter vi \(k=z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n}\), kan vi skrive intervallet som:
\[[\hat {p}-k;\hat {p}+k]\]
Vi kan vise intervallet på en tallinje:
Det er tydeligt fra tallinjen at intervallets bredde er givet ved \(2k\). Hvis \(k\) er stort vil vi altså få et bredt interval, mens en lille \(k\)-værdi vil give et smalt interval. Lad os derfor undersøge hvad der gør \(k\) stor hhv. lille.
Vi havde:
• \(k\) er stor, hvis \(z_{1-\frac {\alpha }{2}}\) er stor. Dette er umiddelbart klart ud fra udtrykket. Vi ser i tabel 16.1 at \(z_{1-\frac {\alpha }{2}}\) er stor, hvis konfidensniveauet er stort. Det giver god mening, at hvis vi vil være meget sikker på at
intervallet indeholder \(p\), så får vi også et bredt interval.
• \(k\) er stor, hvis \(n\) er lille. Fordi, hvis \(n\) er lille, bliver nævneren i brøken lille, og derfor bliver hele brøken stor, og dermed bliver kvadratroden
også stor. Det giver god mening, at en lille stikprøve giver et bredt interval, da det svært at fastlægge \(p\) med stor præcision, hvis stikprøven er lille.
Ud over dette afhænger bredden af intervallet også af \(\hat {p}\), men i modsætning til \(z_{1-\frac {\alpha }{2}}\) og \(n\), er det ikke noget vi selv har indflydelse på. Da vi ville undersøge andelen af dårlige æbler,
besluttede vi selv, at vi ville have et konfidensniveau på \(95\%\), og at vi ville udtage en stikprøve 500 æbler. Andelen af dårlige æbler i stikprøven har vi ikke mulighed for at påvirke. Alligevel kan det være interessant at afklare,
hvilken påvirkning \(\hat {p}\) har på bredden af konfidensintervallet, så hvis du har mod på det, kan du læse om dette i det efterfølgende ekstraafsnit.
Øvelse 16.1.3 (Svær)
Ud fra vores ræsonnementer er det nemt at opstille en formel for bredden af konfidensintervallet.
a) Bestem en formel for bredden \(B\) af konfidensintervallet
b) Bestem hvor stor en stikprøve vi skal udtage, hvis \(p=0{,}4\), konfidensniveauet er \(90\%\) og vi ønsker en bredde på \(0{,}1\).
Løsning 16.1.3
a) \(B=2\cdot z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n}\)
b) \(n=260\)
Ekstra
Betydning af \(\hat {p}\) for bredden af konfidensintervallet
Bredden af konfidensintervallet var bestemt af størrelsen:
Vi vil nu finde ud af, hvilken værdi af \(\hat {p}\) som gør \(k\) størst. Vi ser at \(k\) er stor når brøken under kvadratroden er stor. Brøken bliver stor når tælleren, dvs. \(\hat {p}(1-\hat {p})\), er stor. Vi skal altså
undersøge, hvornår \(\hat {p}(1-\hat {p})\) er stor. Vi ganger parentesen ud:
\(\seteqnumber{0}{16.}{0}\)
\begin{align*}
\hat {p}(1-\hat {p}) & = \hat {p}-\hat {p}^2\\ & = -\hat {p}^2+\hat {p}
\end{align*}
Udtrykket \(-\hat {p}^2+\hat {p}\) har form som et andengradspolynomium med koefficienterne \(a=-1\), \(b=1\) og \(c=0\). Fordi \(a\) er negativ, er det et konkavt polynomium og har derfor maksimum i toppunktet. Vi
regner førstekoordinaten til toppunktet:
\[\frac {-b}{2a}=\frac {-1}{2\cdot (-1)}=0{,}5\]
Udtrykket er altså stort når \(\hat {p}=0{,}5\).
Øvelse 16.1.4
Vi brugte toppunktsformlen til at nå frem til at \(\hat {p}(1-\hat {p})\) er størst, når \(\hat {p}=0{,}5\). Alternativt kunne vi have brugt differentialregning.
a) Redegør for at \(\hat {p}(1-\hat {p})\) er størst, når \(\hat {p}=0{,}5\) vha. differentialregning.
Løsning 16.1.4
a) Vi ganger parentesen ud:
\[\hat {p}(1-\hat {p}) = \hat {p}-\hat {p}^2\]
Vi differentiere \(\hat {p}-\hat {p}^2\) med hensyn til \(\hat {p}\) (dvs. vi tænker på \(\hat {p}\) som vores ”\(x\)”):
\[(-\hat {p}^2+\hat {p})'=-2\hat {p}+1\]
Vi sætter differentialkvotienten lig 0:
\[-2\hat {p}+1=0\]
Vi ser at denne ligning har løsning
\[\hat {p}=0{,}5\]
Det er klart, at dette er et maksimum da differentialkvotienten \(-2\hat {p}+1\) er positiv hvis \(\hat {p}<0{,}5\) og negativ når \(\hat {p}>0{,}5\).
Præcisering af konfidensniveauet
Man kan undre sig over, hvad \(95\%\)-sikkerhed betyder i forbindelse med konfidensintervaller. Det skal forstås på den måde, at hvis du lavede rigtig mange stikprøver med tilhørende konfidensintervaller, så ville \(95\%\) af dine
konfidensintervaller indeholde andelen af dårlige æbler (i hele populationen). Så de \(95\%\) er ikke en sandsynlighed for at et konkret interval indeholder andelen af dårlige æbler. Andelen er nemlig ikke stokastisk (tilfældig), så
sandsynligheden for at et konkret interval indeholder andelen er enten \(0\) eller \(100\%\). Det er selve stikprøven der er stokastisk (det er tilfældigt, hvilke æbler du får fat i). Denne pointe er vigtig, hvis man ønsker at udlede
formler for konfidensintervaller.