Statistik
Från Rilpedia
Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.[1] I arbetet används också element från kognition, psykologi, data- och systemvetenskap, numeriska beräkningar samt bidrag från andra ämnen som befattar sig med matematik, data och datorintensiva metoder.
Resultatet, som också kallas statistik, presenteras ofta i numerisk form, tabeller eller diagram, och används dels för att visa hur något är befattat för tillfället, dels ibland som ett verktyg för att via induktion förutsäga framtida händelser. Statistik används inom många vetenskapliga discipliner, från naturvetenskap till humaniora, men även inom politik och affärsvärlden.
Innehåll |
Etymologi
Ordet "statistik" kommer via engelskan ('statistics') och franskan ('statistique') från latinet ('statisticus'), alla med betydelsen 'statsman', 'politiker'. Den tyska varianten 'Statistik' introducerades av Gottfried Achenwall 1749, och beskrev analysen av data om staten. Ordet fick sin nuvarande betydelse under 1800-talet. Ordet är besläktat med status.[2]
Historik
Beroende på var man drar gränsen, med hänsyn till statistisk stringens, gjordes de tidigaste statistiska undersökningarna under 1600- eller 1700-talet. En av de första statistikerna var William Petty vars Down Survey från 1655-56 handlade om att uppskatta befolkningsstorleken på Irland, främst för att kunna administrera och beskatta den. Statistiken växte så småningom till att bli en egen vetenskaplig gren, jämte matematiken, under 1600- och 1700-talet, inte minst med draghjälp av sannolikhetsläran. 1741 kom Johann Peter Süssmilchs pionjärinsatser inom demografi och befolkningsstatistik där han bl.a. konstaterade att för varje tusen flickebarn föds det 1068 gossebarn. 1662 producerade John Graunt de första levnadstabellerna där han beräknade sannolikheten för att överleva till varje ålder.
Bredden på ämnet vidgades under slutet av 1700-talet och början på 1800-talet. Minstakvadratmetoden som beskrevs av Carl Friedrich Gauss 1794 var en viktig framgång för att bli ett användbart verktyg för affärsvärlden och politiken.
Sedan 1940-talet har datorer använts för att göra storskaliga beräkningar och använda metoder som tidigare varit opraktiska att göra för hand.
Statistik kontra sannolikhetsteori
För utvecklandet av den statistiska teorin spelar sannolikhetsteorin en central roll. Denna är den teoretiska grunden för statistiken och statistiska mått. Skillnaden mellan statistik och sannolikhetsteori är att sannolikhetsteorin behandlar sannolikheter för utfall av slumpförsök där försöken kan upprepas och de yttre omständigheterna kontrolleras, medan man inom statistiken behandlar datamaterial från experiment och observationsstudier, där försöken inte kan upprepas eller de yttre omständigheterna inte kontrolleras. Dock går det att med hjälp av statistiska modeller till viss mån korrigera för felkällor i mätningen. En annan metod är att använda sig av stickprov.
Metoder för att beräkna statistik
Ett vanligt mål i statistiska undersökningar är att avgöra kausalitet, d.v.s. vad som orsakar något. Framför allt är det värdefullt att kunna avgöra vilka faktorer som har hög påverkansgrad. Det finns två typer av kausalitetsstudier: undersökningar med hjälp av experiment och observationsundersökningar. I båda studeras hur olika självständiga variabler påverkar utgången. Skillnaden ligger i hur undersökningen görs. Båda metoderna kan vara mycket effektiva.
Undersökningar med hjälp av experiment
Undersökningar med hjälp av experiment går ut på att mäta ett system, förändra systemet och sedan göra om mätningen för att se om förändringen har påverkat utgången. Ett exempel är den berömda Hawthorne-studien, där man testade belysningens inverkan på effektiviteten i en arbetsmiljö. Forskarna mätte först effektiviteten i Western Electric Companys-fabriken vid Hawthorne. Därefter ändrade de belysningen och mätte ifall det påverkade effektiviten. Det visade sig att effektiviteten ökade (i undersökningen). Senare har undersökningen kritiserats för att ha saknat en kontrollgrupp och dubbelblindhet. Numera syftar begreppet Hawthorne-effekt på att ett resultat påverkas av själva observationen. De som deltog i undersökningen blev inte mer effektiva p.g.a. ljuset, utan för att de observerades.
För att göra ett exmperiment:
- planerar man först forskningen, inklusive bestämmer informationskällor, urvalsprocessen för populationen, och etiska hänsyn för den föreslagna forskningen och dess metod
- därefter designar man experimentet, med fokus på modellen för systemet och interaktionen mellan självständiga och avhängiga variabler
- sedan samlar man ihop observationerna för att se mönster genom att dölja detaljerna
- varpå man samlar konsensus om vad observationerna säger om den del av verkligehten som man undersöker
- och slutligen dokumenterar och presenterar man resultaten av undersökningen
Observationsundersökningar
Observationsundersökningar å andra sidan utgår inte från experiment. Här samlas data in och därefter undersöker man kopplingar mellan faktorer och resultat. Ett exempel är en undersökning av korrelationen mellan rökning och lungcancer. Sådana använder vanligen enkäter för att samla observationer och sedan utföra statistiska analyser. Man samlar då observationer både från rökare och icke-rökare och tittar sedan efter antalet lungcancerfall från båda grupperna.
Stickprov
Inom statistiken begagnar man sig ibland av stickprov ur populationer, och hur man från dessa stickprov kan beskriva eller dra slutsatser om populationens beskaffenhet. Stickprovsteori är ett arbetsredskap som tillåter korrekta sannolikhetsbaserade uttalanden om en större population. När man tar fram statistiska modeller är det viktigt att kunna kvantifiera felet i skattningen, till exempel på grund av urval av populationen. Konfidensgrad är ett närligande begrepp som uttrycker matematiskt vilken tilltro man kan ha till modellen.
Skalor för mått
Psykologen Stanley Smith Stevens utvecklade 1946 en teori om olika skalor för vetenskapliga studier. De fyra sätten som alla mätningar handlar om är:
- nominella
- ordning
- intervaller
- proportionella
Nominella mätningar går ut på att man ger varje resultat en kategori. Varje gång ett nytt resultat kommer in placeras det bland andra exakt likadana resultat eller i en ny kategori. Det resultat som förekommer flest gånger blir ett typvärde.
Ordningsmätningar går ut på att rangordna saker efter en i förväg bestämd ordning. I travlopp, till exempel, är det viktiga vilken häst som kommer först i mål, inte hästens löptid. Median och percentil är två viktiga begrepp här.
Intervallmätningar rör skillnader i nivå på en variabel, till exempel Celsius-temperaturskalan, där varje måttenhet är 1/100 av skillnaden mellan smältpunkten och kokpunkten för vatten. Nollpunkten är arbiträr och därför blir proportioner mellan två siffror på skalan lika arbiträra. Här är medelvärde, standardavvikelse och korrelation viktiga begrepp.
Proportionsmätningar har både ett startvärde (noll) och en fast skala, som exempelvis Kelvin-temperaturskalan. Logaritmer är ett annat exempel.
Viktiga områden inom statistik
Matematisk statistik
Matematisk statistik är den rent matematiska delen av statistik, där sannolikhetsteori används för att beräkna variabler från statistiska data.
- Punktskattning
- Intervallskattning
- Medelkvadratfel
- Varians
- Bias
- Hypotesprövning
- Regressionsanalys
- Beslutsteori
- Klassificering
- Stickprovsteori
- Konstruktion av experiment
- Bayesiansk statistik
- Spelteori
- Köteori
- Statistisk beräkningsteori
Felanvändning av statistik
Det finns en spridd uppfattning om att statistik ofta används på ett icke-neutralt sätt genom att hitta sätt att tolka datan för att passa avsändaren. Ett berömt citat tillskrivs Benjamin Disraeli: "Det finns tre typer av lögn: lögner, förbannade lögner och statistik".
Om undersökningar verkar motsäga varandra, kan allmänheten snart komma att misstro sådana undersökningar. En undersökning kanske tyder på att en given diet höjer blodtrycket, medan en annan tyder på att blodtrycket sjunker. Skillnaden kan dock bero på olikheter i hur experimentet utfördes, såsom skillnader i urvalsprocessen eller forskningsmetoden. Sådana är inte alltid lätta att förstå för lekmän, och media undviker i regel att rapportera om sådana subtiliteter.
Genom att välja eller välja bort (eller modifiera) en del i ett urval, kan resultaten manipuleras. Sådana manipulationer måste inte vara illvilliga eller för dolska syften: de kan också komma från omedveten bias hos forskaren.
Se även
- Lista över statistiska fördelningar
- Stokastisk variabel
- Sannolikhetsteori
- Sannolikhetsfördelning
- Matematisk statistik
- Statistisk processkontroll
Referenser
- ↑ Moses, Lincoln E. Think and Explain with statistics, s. 1 - 3. Addison-Wesley, 1986.
- ↑ http://g3.spraakdata.gu.se/saob/ Uppslagsordet "Statistik"
Externa länkar
- Historia.se - Portalen för historisk statistik
- Länkar till svensk statistik sammanställd av SCB.
- FNs statistikdatabas med 60 års statistik insamlad om dess medlemsländer.