Forstil dig, at du ejer en æbleplantage. En del af æblerne er du nødt til at kassere, da de ikke lever op til kvalitetskravene. Du vil nu gerne undersøge, hvor stor en andel af æblerne, du skal kassere. Samtlige æbler på plantagen
kalder vi for populationen. Det ville være for stort et arbejde at undersøge hele populationen, så du udtager en stikprøve. Lad os sige, at du finder ud
af at \(10\%\) af æblerne i din stikprøve skal kasseres. Kan du så være sikker på at \(10\%\) af æblerne i populationen skal kasseres? Selvfølgelig ikke. Det kunne f.eks. være, at din stikprøve tilfældigvis indholdte særlig mange
dårlige æbler, og at de \(10\%\) derved var misvisende. Vi siger at de \(10\%\) er et estimat for andelen af dårlige æbler (i populationen) og betegner det med \(\hat {p}\). Hvis vi vil udtale os med rimelig sikkerhed, er
vi nødt til at angive et interval rundt om vores estimat. Det kunne f.eks. se således ud:
\[[8\%;12\%]\]
Hvis vi er \(95\%\) sikre på, at andelen af dårlige æbler (for populationen) ligger i dette interval, kalder vi intervallet for et \(95\%\)-konfidensinterval.
Konfidensintervaller i GeoGebra
Lad os sige, at vi har udtaget \(500\) æbler og \(50\) af dem var dårlige. Vi åbner sandsynlighedsregneren i GeoGebra og vælger ”Statistik”.
Vi vælger nu ”Z interval for andel”:
Vi skal nu udfylde tre felter:
.
Konfidensniveau
Her skriver vi den sikkerhed (angivet som decimaltal) vi ønsker.
Successer
Her skriver, vi hvor mange dårlige æbler vi har fået.
\(n\)
Her skriver vi stikprøvestørrelsen.
Vi vil gerne have \(95\%\) sikkerhed, så vi skriver \(0{,}95\) som ”Konfidensniveau”. Vi har \(50\) dårlige æbler i stikprøven, så det skriver vi som ”Successer”. Ved \(n\) skriver vi \(500\), da vi har udtaget en stikprøve på
\(500\) æbler. Det giver:
Nederst ud fra ”Interval” står der \(0{,}1\pm 0{,}026296\). De \(0{,}1\) er vores estimat for andelen af dårlige æbler. Vi har altså
\[\hat {p}=0{,}1\]
Det er ikke overraskende at \(\hat {p}=0{,}1=10\%\), da \(50\) ud af \(500\) er \(10\%\). Vi kan nu aflæse konfidensintervallet i screenshottet. Det er det lukkede interval fra ”Nedre grænse” til ”Øvre grænse”, hvilket er
intervallet:
\[[0{,}074;0{,}126]\]
Det betyder, at vi med \(95\%\) sikkerhed kan sige, at mellem \(7{,}4\%\) og \(12{,}6\%\) af alle æblerne i populationen er dårlige. Så vores bedste bud på andelen af dårlige æbler er \(10\%\), men hvis vi skal tage forbehold for
usikkerhed, vil vi begrænse os til at sige, at mellem \(7{,}4\%\) og \(12{,}6\%\) af alle æblerne i plantagen er dårlige.
Øvelse 15.1.1
En elev ville undersøge ungdomsarbejdsløsheden i Danmark og spurgte 200 repræsentativt udvalgte unge, om de var i arbejde. Der var 32 ud af de 200 som ikke var i arbejde.
a) Angiv et estimat af ungdomsarbejdsløsheden.
b) Bestem et \(95\%\)-konfidensinterval for ungdomsarbejdsløsheden og forklar, hvad det betyder.
c) Bestem et \(90\%\)-konfidensinterval for ungdomsarbejdsløsheden og forklar, hvad det betyder.
d) Hvilket interval er bredest? \(90\%\) eller \(95\%\)-konfidensintervallet?
Løsning 15.1.1
a) \(\hat {p}=0{,}16\)
b) Konfidensintervallet er \([0,11;0,21]\), hvilket betyder at vi med \(95\%\)-sikkerhed kan sige, at ungdomsarbejdsløsheden ligger mellem \(11\%\) og
\(21\%\)
c) Konfidensintervallet er \([0{,}12;0{,}20]\), hvilket betyder at vi med \(90\%\)-sikkerhed kan sige, at ungdomsarbejdsløsheden ligger mellem
\(12\%\) og \(20\%\)
d) Det er \(95\%\)-konfidensintervallet. Vi vil senere se på hvorfor.
Konfidensintervaller ved beregning
Vi skal nu se på, hvordan man beregner konfidensintervaller ved hjælp af en formel. Før vi opstiller formlen, skal vi se på noget teori, der ligger bag formlen. Vi bliver ved æbleplantagen. Når vi udtager \(500\) æbler, vil antallet af
dårlige æbler være binomialfordelt. Vi husker nemlig, at en binomialfordeling består af \(n\) uafhængige forsøg, hvor hvert forsøg har en successandsynlighed på \(p\). I vores tilfælde er \(n=500\), fordi vi udtager \(500\) æbler.
Sandsynlighedsparameteren \(p\), er sandsynligheden for at få et dårligt æble, og den kender vi ikke. Det er faktisk den, vi gerne vil finde, da sandsynligheden for at få et dårligt æble, må være det samme som andelen af dårlige
æbler (i populationen). Altså, hvis der \(10\%\) sandsynlighed for at få et dårligt æble, må det være fordi \(10\%\) af æblerne er dårlige. Så når vi bestemmer et konfidensinterval for andelen af dårlige æbler, bestemmer vi faktisk
et konfidensinterval for sandsynlighedsparameteren i en binomialfordeling. Formlen for konfidensintervaller er indeholdt i følgende sætning, som vil blive forklaret nedenunder:
Sætning 15.1.1 Hvis \(\hat {p}\) opfylder at \(n\cdot \hat {p}\cdot (1-\hat {p})>9\) kan et konfidensinterval \(I\) for
sandsynlighedsparameteren \(p\) i en binomialfordeling bestemmes ved formlen:
\(\left (1-\frac {\alpha }{2}\right )\)-fraktilen i standardnormalfordelingen.
Vi vil nu bestemme det samme \(95\%\)-konfidensinterval for dårlige æbler som vi fandt i GeoGebra i starten afsnittet, men denne gang vil vi bruge formlen. Før vi kan beregne konfidensintervallet, har vi brug for nogle forskellige
størrelser. For det første har vi brug for et estimat for \(p\). Det finder vi med formlen:
\[\hat {p}=\frac {x}{n}\]
Her er \(\hat {p}\) estimatet, \(x\) er antal succeser og \(n\) er antal forsøg. I vores eksempel har vi \(n=500\), fordi der er \(500\) æbler i stikprøven, \(x=50\) fordi der var \(50\) dårlige æbler. Estimatet \(\hat {p}\) bliver så:
\[\hat {p}=\frac {50}{500}=0{,}1\]
I sætningen kræves \(n\cdot \hat {p}\cdot (1-\hat {p})>9\), så vi må hellere tjekke, at det er i orden:
Da \(45>9\) er kravet opfyldt og vi kan gå videre med formlen. Her får vi nu brug for nogle ”fraktiler i standardnormalfordelingen”. Senere vil dem, som afslutter matematik på A-niveau lære betydningen af disse, og hvordan de
bestemmes. For resten af os, er det bare nogle tal, vi finder i en tabel:
I tabellen ser vi fraktilerne, der betegnes med \(z_{1-\frac {\alpha }{2}}\), for forskellige konfidensniveauer. Vi husker, at konfidensniveauet betyder den sikkerhed, vi ønsker vores konfidensinterval skal have. Vi er nu klar til at
sætte ind i formlen:
\(\seteqnumber{0}{15.}{0}\)
\begin{align*}
I & = \left [\hat {p}-z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n};\hat {p}+z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n}\ \right ]\\ & =
\left [0{,}1-1{,}96\cdot \sqrt \frac {0{,}1(1-0{,}1)}{500};0{,}1+1{,}96\cdot \sqrt \frac {0{,}1(1-0{,}1)}{500}\ \right ]\\ & = [0{,}074;0{,}126]
\end{align*}
Vi ser, at vi får det samme konfidensinterval, vi fik i GeoGebra nemlig \([0{,}074;0{,}126]\). Det var heldigt.
Øvelse 15.1.2
Antag, at vi gerne vil kende andelen af dårlige æbler mere præcist. Vi laver derfor en ny stikprøve på \(2000\) æbler og finder \(213\) dårlige æbler.
a) Bestem ved beregning (uden GeoGebra) et \(95\%\)-konfidensinterval for andelen af dårlige æbler.
b) Den tidligere ejer påstod at andelen af dårlige æbler aldrig kom over \(10\%.\) Kan du afvise den påstand?
Løsning 15.1.2
a) \([0{,}093;0{,}120]\)
b) Vi kan se at intervallet indeholder \(10\%\), så vi kan ikke udelukke at den tidligere ejer havde ret.
Eksempel 15.1.1 Vi vender tilbage til eksemplet med yndlingskage, som vi mødte i afsnittet om sandsynlighedsregning. Her havde nogle elever spurgt 55 elever om deres yndlingskage og var kommet frem til
følgende.
.
Dreng
Pige
Total
Drømmekage
\(13\)
\(5\)
\(18\)
Chokoladekage
\(14\)
\(11\)
\(25\)
Andet
\(6\)
\(6\)
\(12\)
Total
\(33\)
\(22\)
\(\textbf {55}\)
Indtil videre har vi kun interesseret os for, hvordan det så ud inden for den gruppe elever vi har spurgt. Vi skal nu se, hvordan vi kan bruge undersøgelsen til at sige noget om yndlingskage og køn mere generelt. Dvs. vi betragter nu
data som en stikprøve og interesserer os for, hvordan det ser ud i populationen (dvs. resten af Niels Brock).
Vi vil i denne omgang bruge undersøgelsen til til at sige noget om kønsfordelingen på Niels Brock. Vi finder først et estimat for antallet af piger på Niels Brock. Der er \(55\) elever i undersøgelsen og \(22\) af dem er piger, så vores
estimat bliver:
\[\hat {p}=\frac {x}{n}=\frac {22}{55}=0{,}4\]
Vi estimerer altså at \(40\%\) af eleverne på Niels Brock er piger. Men dette er bare et estimat, så vi opstiller nu et konfidensinterval, så det bliver muligt for os at udtale os med en vis sikkerhed. Vi vil lave et
\(95\%\)-konfidensinterval. Først tjekkes om kravet for at bruge sætning 15.1.1 er opfyldt:
Kravet er altså opfyldt, og vi kan nu sætte ind i formlen. Først finder vi \(z_{1-\frac {\alpha }{2}}\) i tabel 15.1 for et
konfidensniveau på \(95\%\). Her ser vi, at \(z_{1-\frac {\alpha }{2}}\) er \(1{,}96\) for vores konfidensniveau. Vi indsætter nu i formlen fra sætning 15.1.1
Vi ser at konfidensintervallet er \([0{,}27;0{,}53]\). Vi kan altså med \(95\%\) sikkerhed sige, at andelen af piger på Niels Brock ligger mellem \(27\%\) og \(53\%\). Så selvom vi estimerer, at \(40\%\) af eleverne er piger, kan
kan vi ikke engang være sikre på, at der er flere drenge end piger, da intervallet indeholder \(50\%\).
Øvelse 15.1.3
I forlængelse af ovenstående eksempel:
a) Bestem et estimat for andelen af elever på Niels Brock, som har chokoladekage som yndlingskage.
c) Bestem et \(90\%\)-konfidensinterval for andelen er elever, som har chokoladekage som yndlingskage.
d) Bestem et estimat for antallet af piger, som har chokoladekage som yndlingskage.
e) Kan man bestemme konfidensinterval for antallet af piger, som har chokoladekage som yndlingskage?
Løsning 15.1.3
a) \(\hat {p}=45\%\)
b) Det er det \(n\cdot \hat {p}\cdot (1-\hat {p})=13,6\).
c) \([0{,}34;0{,}56]\)
d) \(\hat {p}=50\%\)
e) Nej \(n\cdot \hat {p}\cdot (1-\hat {p})=5{,}5\) som altså ikke er over \(9\). Hmm man kunne også svare ”ja” til spørgsmålet, men så skal vi
have fat i andre metoder, som ikke er beskrevet på mathhx.
Bredden af konfidensintervaller
Når vi bestemmer konfidensintervaller, er der to ting, vi gerne vil have opfyldt:
1. Konfidensniveauet er højt. Det betyder nemlig, at vi er meget sikre på at intervallet indeholder den sande værdi for \(p\). I eksemplet med æblerne var
konfidensniveauet \(95\%\), hvilket betød, at vi var \(95\%\) sikre på, at andelen af dårlige æbler lå mellem \(7{,}4\%\) og \(12{,}6\%\). Det havde selvfølgeligt været bedre, hvis vi kunne være f.eks. \(99\%\) sikre på, at andelen
lå imellem de to værdier.
2. Intervallet er smalt. Det betyder nemlig, at vi siger noget mere præcist om, hvad \(p\) kan være. I forhold til æblerne gik intervallet fra \(7{,}4\%\) til
\(12{,}6\%\). Det betyder, at andelen af dårlige æbler (sandsynligvis) ligger et eller andet sted imellem de to værdier. Det ville selvfølgelig være bedre (mere præcist), hvis vi f.eks. kunne sige, at andelen (sandsyligvis) lå mellem
\(9\%\) og \(11\%\).
Det viser sig desværre, at det er svært (kræver stor stikprøve), at opnå begge dele på en gang, hvilket vel ikke er så overaskende. Konfidensniveauet vælger vi selv, og derfor er der ikke så meget at sige til det, så lad os fokusere på,
hvad der afgøre bredden af intervallet. Vi kalder bredden \(B\) og regner en formel for den:
\(\seteqnumber{0}{15.}{0}\)
\begin{align*}
B & = \text {højre endepunkt} - \text {venstre endepunkt}\\ & = \hat {p}+z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n} - \left (\hat {p}-z_{1-\frac {\alpha
}{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n} \right )&& (\text {Endepunkter indsat})\\ & = \hat {p}+z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n} -\hat
{p}+z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n} && (\text {Parentes hæves})\\ & = z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n} +
z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat {p}(1-\hat {p})}{n} && (\text {$\hat {p}$ går ud med $-\hat {p}$})\\ & = 2\cdot z_{1-\frac {\alpha }{2}}\cdot \sqrt \frac {\hat
{p}(1-\hat {p})}{n} && (\text {De to led samles})
\end{align*}
Vi konkluderer at bredden af et konfidensinterval er givet ved:
• Intervallet er bredt, hvis \(z_{1-\frac {\alpha }{2}}\) er stor. Dette er umiddelbart klart ud fra udtrykket. Vi ser i tabel 15.1 at \(z_{1-\frac {\alpha }{2}}\) er stor, hvis konfidensniveauet er stort. Det giver god mening, at hvis vi vil være meget sikker på at
intervallet indeholder \(p\), så får vi også et bredt interval.
• Intervallet er bredt, hvis \(n\) er lille. Fordi, hvis \(n\) er lille, bliver nævneren i brøken lille, og derfor bliver hele brøken stor, og dermed bliver
kvadratroden også stor. Det giver god mening, at en lille stikprøve giver et bredt interval, da det svært at fastlægge \(p\) med stor præcision, hvis stikprøven er lille.
Ud over dette afhænger bredden af intervallet også af \(\hat {p}\), men i modsætning til \(z_{1-\frac {\alpha }{2}}\) og \(n\), er det ikke noget, vi selv har indflydelse på. Da vi f.eks. ville undersøge andelen af dårlige æbler,
besluttede vi selv, at vi ville have et konfidensniveau på \(95\%\), og at vi ville udtage en stikprøve på 500 æbler. Andelen af dårlige æbler i stikprøven har vi ikke mulighed for at påvirke. Alligevel kan det være interessant at
afklare, hvilken påvirkning \(\hat {p}\) har på bredden af konfidensintervallet, så hvis du har mod på det, kan du læse om dette i ekstraafsnittet.
Øvelse 15.1.4
Antag, at vi udtager en stikprøve fra en population og laver et \(99\%\)-konfidensinterval.
a) Bestem bredden af intervallet, hvis \(\hat {p}=0{,}7\) og \(n=200\)
b) Antag, at vi ikke er tilfreds med bredden af intervallet og, at vi gerne vil have at bredden skal være under \(0{,}05\). Hvor stor en stikprøve skal vi
udtage, hvis vi går ud fra at \(\hat {p}=0{,}7\)? Kan du regne dig frem til det (altså ikke bare prøve dig frem)?
Løsning 15.1.4
a) \(B=0{,}167\)
b) \(n=2230\)
Ekstra
Betydning af \(\hat {p}\) for bredden af konfidensintervallet
Bredden \(B\) af konfidensintervallet var bestemt til:
Vi vil nu finde ud af, hvilken værdi af \(\hat {p}\) som gør \(B\) størst. Vi ser at \(B\) er stor, når brøken under kvadratroden er stor. Brøken bliver stor, når tælleren, dvs. \(\hat {p}(1-\hat {p})\), er stor. Vi skal altså
undersøge, hvornår \(\hat {p}(1-\hat {p})\) er stor. Vi ganger parentesen ud:
\(\seteqnumber{0}{15.}{0}\)
\begin{align*}
\hat {p}(1-\hat {p}) & = \hat {p}-\hat {p}^2\\ & = -\hat {p}^2+\hat {p}
\end{align*}
Udtrykket \(-\hat {p}^2+\hat {p}\) har form som et andengradspolynomium med koefficienterne \(a=-1\), \(b=1\) og \(c=0\). Fordi \(a\) er negativ, er det et konkavt polynomium, og dermed har det maksimum i toppunktet.
Vi regner førstekoordinaten til toppunktet:
\[\frac {-b}{2a}=\frac {-1}{2\cdot (-1)}=0{,}5\]
Udtrykket er altså stort, når \(\hat {p}=0{,}5\).
Øvelse 15.1.5
Vi brugte toppunktsformlen til at nå frem til at \(\hat {p}(1-\hat {p})\) er størst, når \(\hat {p}=0{,}5\). Alternativt kunne vi have brugt differentialregning.
a) Redegør for at \(\hat {p}(1-\hat {p})\) er størst, når \(\hat {p}=0{,}5\) vha. differentialregning.
Løsning 15.1.5
a) Vi ganger parentesen ud:
\[\hat {p}(1-\hat {p}) = \hat {p}-\hat {p}^2\]
Vi differentiere \(\hat {p}-\hat {p}^2\) med hensyn til \(\hat {p}\) (dvs. vi tænker på \(\hat {p}\) som vores ”\(x\)”):
\[(-\hat {p}^2+\hat {p})'=-2\hat {p}+1\]
Vi sætter differentialkvotienten lig \(0\):
\[-2\hat {p}+1=0\]
Vi ser at denne ligning har løsningen:
\[\hat {p}=0{,}5\]
Det er klart, at dette er et maksimum da differentialkvotienten \(-2\hat {p}+1\) er positiv hvis \(\hat {p}<0{,}5\) og negativ når \(\hat {p}>0{,}5\).
Præcisering af konfidensniveauet
Vi har ikke været så konkrete med, hvad \(95\%\)-sikkerhed betyder i forbindelse med konfidensintervaller. Det skal forstås på den måde, at hvis du lavede rigtig mange stikprøver med tilhørende konfidensintervaller, så ville
\(95\%\) af dine konfidensintervaller indeholde den ”sande andel” af dårlige æbler (dvs. andelen af dårlige æbler i hele populationen). Så de \(95\%\) er ikke en sandsynlighed for at et konkret interval indeholder andelen af dårlige
æbler. Andelen er nemlig ikke stokastisk (tilfældig), så sandsynligheden for at et konkret interval indeholder andelen er enten \(0\) eller \(100\%\). Det er derimod stikprøven (og dermed intervallet) der er stokastisk (det er
tilfældigt, hvilke æbler du får fat i). Denne pointe er vigtig, hvis man ønsker at udlede formler for konfidensintervaller (som vi gør i bevisafsnittet).
Præcisering af krav for at opstille konfidensintervaller
Kravet \(n\cdot \hat {p}\cdot (1-\hat {p})>9\) opstår fordi formlen i sætning 15.1.1 er baseret på, at binomialfordelingen
ligner en særlig sandsynlighedsfordeling ”normalfordelingen”, når \(n\) er stor og \(p\) ikke er meget stor eller meget lille. Det er derfor der er ”fraktiler fra standardnormalfordelingen” i formlen. Vi ser at kravet \(n\cdot \hat
{p}\cdot (1-\hat {p})>9\) er opfyldt netop når \(n\) er stor, og \(\hat {p}\) ikke er meget stor eller meget lille. Jo mindre \(n\cdot \hat {p}\cdot (1-\hat {p})\) er, jo mere upræcis bliver formlen, så man kan opfatte
kravet \(n\cdot \hat {p}\cdot (1-\hat {p})>9\) som en tommelfingerel, mere end et fast krav. GeoGebra bruge i øvrigt samme formel, og derfor bør man også tjekke kravet, inden man opstiller konfidensintervaller i
GeoGebra.