Språkstatistik

Från Rilpedia

Hoppa till: navigering, sök
Wikipedia_letter_w.pngTexten från svenska WikipediaWikipedialogo_12pt.gif
rpsv.header.diskuteraikon2.gif

Språkstatistik är statistik inriktad på språkliga data. Det används vid stilistiska undersökningar, som bakgrund för språkpsykologiska undersökningar och vid framställande av läroböcker i främmande språk. Syftet med språkstatistik är att undersöka sådant som ordlängd, meningslängd, antalet ord av viss typ o.s.v.[1] Mycket av den språkstatistik som finns idag är insamlad med hjälp av språkforskare men också av exempelvis pedagoger vars uppgift är att fastställa vilka ord som barn i första hand behöver lära sig. Idag genomförs undersökningarna av ord mycket snabbare med datorer. George Zipf var en föregångare till språkstatistiken och han har formulerat en egen språklag.[2]


Innehåll

Zipf’s lag

Zipf’s lag säger att det råder ett omvänt förhållande mellan ords längd och dess frekvens, ju vanligare desto kortare[3][4]. Det leder till att ord ofta förkortas om de blir vanliga som t.ex. bil i stället för automobil. Zipf visade också med hjälp av en av sina lagar att ett uttrycks vanlighet gånger dess frekvens är en konstant.[5] Det leder till att det vanligaste ordet kommer påträffas dubbelt så ofta som det näst vanligaste ordet, vilket i sin tur kommer påträffas dubbelt så ofta som det tredje vanligaste ordet o.s.v.[6]


Svensk språkstatistik

Vid undersökningar av svenska texter har man kunnat konstatera att de vanligaste bokstäverna är: e, a, n, t, r, s. När man i stället studerat ordfrekvensen har det visat sig att de vanligaste orden tillhör kategorierna: artiklar, prepositioner, kopula, konjunktioner och pronomen. I svenskan är de vanligaste orden: och, i, en, är, av, det, som, på, att, för. Det har också visat sig att det finns språkstatistiska skillnader mellan det talade och skrivna språket, t.ex. utgör pronomen 14 % av en skriven text men hela 23 % av en talad. Det finns också skillnader i statistiken för en del personer och grupper. Det är inte ovanligt att en del har favoritord eller favorituttryck som används i högre utsträckning än genomsnittet.[7] Exempel på det kan vara typ eller liksom bland ungdomar. Man har med hjälp av språkstatistik försökt genomföra s.k. författarbestämning. De görs ofta för att bestämma vem som är författare till en text där denne varit anonym eller använt en pseudonym. En författarbestämning med hjälp av språkstatistik sker ofta genom att man granskar språkets vanligaste småord och grammatiska konstruktioner, eftersom det ofta är dem som skiljer en författare från en annan[8].

Referenser

  1. Bra böckers lexikon. språkstatistik
  2. http://www.ne.se/artikel/313374
  3. Zipf, George (1935) The psychobiology of human language New York: Houghton Mifflin
  4. Zipf, George (1949) Human behavior and the principle of least effort. Cambridge, MA: Addison Wesley
  5. http://www.ne.se/artikel/350164
  6. http://en.wikipedia.org/wiki/Zipf's_law
  7. http://www.ne.se/artikel/313374
  8. http://www.ne.se/artikel/178149

Källor

Tryckta källor

  • Bra böckers lexikon. (språkstatistik)1981. Bokförlaget Bra Böcker AB. Höganäs

Webbkällor

Se även

Personliga verktyg
På andra språk