Språkstatistik
Från Rilpedia
Språkstatistik är statistik inriktad på språkliga data. Det används vid stilistiska undersökningar, som bakgrund för språkpsykologiska undersökningar och vid framställande av läroböcker i främmande språk. Syftet med språkstatistik är att undersöka sådant som ordlängd, meningslängd, antalet ord av viss typ o.s.v.[1] Mycket av den språkstatistik som finns idag är insamlad med hjälp av språkforskare men också av exempelvis pedagoger vars uppgift är att fastställa vilka ord som barn i första hand behöver lära sig. Idag genomförs undersökningarna av ord mycket snabbare med datorer. George Zipf var en föregångare till språkstatistiken och han har formulerat en egen språklag.[2]
Innehåll |
Zipf’s lag
Zipf’s lag säger att det råder ett omvänt förhållande mellan ords längd och dess frekvens, ju vanligare desto kortare[3][4]. Det leder till att ord ofta förkortas om de blir vanliga som t.ex. bil i stället för automobil. Zipf visade också med hjälp av en av sina lagar att ett uttrycks vanlighet gånger dess frekvens är en konstant.[5] Det leder till att det vanligaste ordet kommer påträffas dubbelt så ofta som det näst vanligaste ordet, vilket i sin tur kommer påträffas dubbelt så ofta som det tredje vanligaste ordet o.s.v.[6]
Svensk språkstatistik
Vid undersökningar av svenska texter har man kunnat konstatera att de vanligaste bokstäverna är: e, a, n, t, r, s. När man i stället studerat ordfrekvensen har det visat sig att de vanligaste orden tillhör kategorierna: artiklar, prepositioner, kopula, konjunktioner och pronomen. I svenskan är de vanligaste orden: och, i, en, är, av, det, som, på, att, för. Det har också visat sig att det finns språkstatistiska skillnader mellan det talade och skrivna språket, t.ex. utgör pronomen 14 % av en skriven text men hela 23 % av en talad. Det finns också skillnader i statistiken för en del personer och grupper. Det är inte ovanligt att en del har favoritord eller favorituttryck som används i högre utsträckning än genomsnittet.[7] Exempel på det kan vara typ eller liksom bland ungdomar. Man har med hjälp av språkstatistik försökt genomföra s.k. författarbestämning. De görs ofta för att bestämma vem som är författare till en text där denne varit anonym eller använt en pseudonym. En författarbestämning med hjälp av språkstatistik sker ofta genom att man granskar språkets vanligaste småord och grammatiska konstruktioner, eftersom det ofta är dem som skiljer en författare från en annan[8].
Referenser
- ↑ Bra böckers lexikon. språkstatistik
- ↑ http://www.ne.se/artikel/313374
- ↑ Zipf, George (1935) The psychobiology of human language New York: Houghton Mifflin
- ↑ Zipf, George (1949) Human behavior and the principle of least effort. Cambridge, MA: Addison Wesley
- ↑ http://www.ne.se/artikel/350164
- ↑ http://en.wikipedia.org/wiki/Zipf's_law
- ↑ http://www.ne.se/artikel/313374
- ↑ http://www.ne.se/artikel/178149
Källor
Tryckta källor
- Bra böckers lexikon. (språkstatistik)1981. Bokförlaget Bra Böcker AB. Höganäs
Webbkällor
- http://en.wikipedia.org/wiki/Zipf's_law 20090225
- http://www.ne.se/artikel/178149 20090225
- http://www.ne.se/artikel/313374 20090223
- http://www.ne.se/artikel/350164 20090223