Lineær regression
Lineær regression bruges til at beskrive udviklinger som er tilnærmelsesvist lineære. Lad os tage et eksempel. Vi kigger på udbredelsen af smartphones i USA i perioden Septemper 2011 - September 2012. Tabellen viser hvor stor en procentdel af dem som har et mobilabonement der ejer en smartphone.
Tegner vi det ind i et koordinatsystem får vi følgende:
Vi kan se at punkterne ligger tilnærmelsesvis på en linje. I dette afsnit skal vi lære hvordan man finder forskriften for linjen. Processen kaldes lineær regression.
Guide til lineær regression i Excel
Vi vil gerne finde forskriften for den funktion $$f$$ der beskriver andelen af smartphones som funktion af antallet af måneder efter oktober 2011
Vi har tabellen
Vi laver månederne om til 0, 1, 2, 3 osv. Da vi er intersserede i antalet af måneder der er gået. Det giver os følgende tabel som vi skriver ind i Excel:
Vi rammer nu alle tallene ind:
og vælger "indsæt punktdiagram":
Dette giver os diagrammet:
Diagrammet kaldes et xy-plot. Vi højreklikker nu på et af punkterne og vælger "Tilføj tendenslinje":
og vi vælger "lineær funktion" og sætter flueben i "Vis ligning i diagram" og "Vis R-kvadreret værdi i diagram":
Hvilket giver os følgende:
Vi kan se at forskriften er $$$f(x)=1{,}0839x+39{,}105.$$$ Vi kalder $$f$$ for en lineær model for udviklingen af smartphones. I screenshottet ses også at "$$R^2=0{,}9749$$". Vi skal nu se på hvad det betyder. Men først liiiiiiige et par øvelser:
Øvelse 1
Hvad er et xy-plot? Du har sikkert glemt det, så gå op i teksten og find det sted hvor det står.
Det er et diagram som viser os vores data som punkter. Det kan f.eks. se sådan ud:
Øvelse 2
Nu har du læst hvordan man laver lineær regression. Prøv selv at gennemfører eksemplet ovenover på din egen computer.
Bestem en forskrift for den lineære funktion der bedst beskriver udviklingen:
$$f(x)=1{,}0839x+39{,}105$$
Determinationskoefficienten og korrelationskoefficienten
I eksemplet ovenover bestemte vi også $$R^2$$. Størrelsen $$R^2$$ kaldes determinationskoefficienten og angiver hvor tæt på linjen punkterne ligger. Er $$R^2=1$$ ligger alle punkterne på linjen, og jo længere væk fra 1 vi kommer, jo dårlige passer punkterne til linjen. Determinationskoefficienten kan ikke blive mindre end $$0$$.
Determinationskoefficienten er en svær størrelse at fortolke. En lille $$R^2$$ betyder at punkterne generelt ligger langt fra linjen, men det betyder bare at der er stor variation i data, og at der derfor vil være en vis usikkerhed i de forudsigelser man laver på baggrund af modellen - modellen kan stadig være den bedste beskrivelse af udviklingen. Omvendt kan man have en høj $$R^2$$ i en udvikling, som slet ikke er lineær, men bedre kan beskrives en anden funktionstype. Derfor bør man altid vurdere om udviklingen ser lineær ud ved at kigge på xy-plottet.
Tager man kvadratroden af $$R^2$$ får man en størrelse $$r$$ som kaldes korrelationskoefficienten. Er der tale om en aftagende udvilking skal man sætte et minus på.
Eksempel 1
Udviklingen af udbredelsen af smartphones i USA i perioden Septemper 2011 - September 2012 er tilnærmelsesvis lineær, da $$R^2=0{,}97$$ er tæt på 1 og vi samtidig kan se at punkter ligger ca. på en linje.
Øvelse 3
En aftagende udvikling har ved lineær regression en determinationskoefficient på $$R^2=0{,}98$$.
-
Er der tale om en tilnærmelsesvis lineær udvikling?
Måske. Vi er nødt til at kigge på xy-plottet før vi kan sige noget om det.
-
Bestem korrelationskoefficienten.
$$r=-0{,}99$$
Øvelse 4
I filen vmfodboldtilskuere ses en oversigt over det totale antal tilskuere ved VM i fodbold gennem tiden.
-
Lav et xy-plot der viser udviklingen i antallet af tilskuere som funktion af antallet af år efter 1930. Kan du layoute det så der er korrekte titler på akserne?
-
Lav lineær regression på punkterne. Kan udviklingen tilnærmelsesvis beskrives ved en lineær funktion?
Ja det kan den godt. Vi har $$R^2=0{,}91$$ og vi kan se at punkterne ligger pænt omkring linjen.
-
Angiv en forskrift for den lineære funktion som bedst beskriver udviklingen.
Forskriften er: $$$f(x)=40070x+79897$$$
-
Bestem med udgangspunkt i modellen en værdi for antallet af tilskuere ved VM i Rusland i 2018 og sammenlign med det rigtige tilskuertal: 3031768.
Det giver 3606057 hvilket jo er et stykke fra de 3031768. Måske kunne man lave en bedre forudsigelse ved at tage højde for hvor slutrunden spilles?
Øvelse 5 (svær)
Gå ind på https://en.wikipedia.org/wiki/Correlation_and_dependence#Simple_linear_correlations. Læs afsnittet "Correlation and linearity". Der står en masse i afsnittet som du ikke har forudsætninger for at forstå, men til højre er der en figur.
Find ud af hvad figuren viser, og brug dette til at argumentere for det er vigtigt også at kigge på grafen hvis man vil vurdere om en udvikling er lineær.
Vi snakker om det i klassen.
Øvelse 6 (meget svær)
Gå ind på https://en.wikipedia.org/wiki/Coefficient_of_determination#Definitions og læs afsnittet "definitions".
Forklar ud fra afsnittet (specielt tegningen er god) hvad $$R^2$$ betyder helt præcist.
Vi snakker om det i klassen.