Bokstavsfrekvens

Från Rilpedia

Hoppa till: navigering, sök
Wikipedia_letter_w.pngTexten från svenska WikipediaWikipedialogo_12pt.gif
rpsv.header.diskuteraikon2.gif
Spanska bokstavsfrekvenser
Relativa bokstavsfrekvenser i engelsk text

I den frekvens bokstäver används i text har ofta studerats inom kryptografi och frekvensanalys i synnerhet. Ingen exakt bokstavsfrekvens-uppdelning understryker ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som etaoin shrdlu cmfwyp vbgkqj xz baserat på erfarenhet och sed hos manuella kompositörer. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Sedan arrangeras Morsealfabetet till bokstavsgrupper som kräver lika mycket tid att sända, och sen sorteras dessa grupper i växande storlek, alltså e it san hurdm wgvlfbk opjxcz yq. Liknande idéer används i moderna data-kompression-tekniker såsom Huffmankodning.

Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver.

Alla skriver olika, till exempel Ernest Hemingways skrivarstil är synligen skiljd från William Faulkners. Bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter, även för författare vars stiler inte är så avvikande.

Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt.

Relativa bokstavsfrekvenser i olika språk

Bokstav Engelska [1] Franska [2] Tyska [3] Spanska [4] Esperanto [5] Italienska[6] Turkiska Svenska[7]
% % % % % % % %
a 8,167 7,636 6,51 12,53 12,12 11,74 11,68 9,3
b 1,492 0,901 1,89 1,42 0,98 0,92 2,95 1,3
c 2,782 3,260 3,06 4,68 0,78 4,5 0,97 1,3
d 4,253 3,669 5,08 5,86 3,04 3,73 4,87 4,5
e 12,702 14,715 17,40 13,68 8,99 11,79 9,01 9,9
f 2,228 1,066 1,66 0,69 1,03 0,95 0,44 2,0
g 2,015 0,866 3,01 1,01 1,17 1,64 1,34 3,3
h 6,094 0,737 4,76 0,70 0,38 1,54 1,14 2,1
i 6,966 7,529 7,55 6,25 10,01 11,28 8,27* 5,1
j 0,153 0,545 0,27 0,44 3,50 0,00 0,01 0,7
k 0,772 0,049 1,21 0,00 4,16 0,00 4,71 3,2
l 4,025 5,456 3,44 4,97 6,14 6,51 5,75 5,2
m 2,406 2,968 2,53 3,15 2,99 2,51 3,74 3,5
n 6,749 7,095 9,78 6,71 7,96 6,88 7,23 8,8
o 7,507 5,378 2,51 8,68 8,78 9,83 2,45 4,1
p 1,929 3,021 0,79 2,51 2,74 3,05 0,79 1,7
q 0,095 1,362 0,02 0,88 0,00 0,51 0 0,007
r 5,987 6,553 7,00 6,87 5,91 6,37 6,95 8,3
s 6,327 7,948 7,27 7,98 6,09 4,98 2,95 6,3
t 9,056 7,244 6,15 4,63 5,27 5,62 3,09 8,7
u 2,758 6,311 4,35 3,93 3,18 3,01 3,43 1,8
v 0,978 1,628 0,67 0,90 1,90 2,10 0,98 2,4
w 2,360 0,114 1,89 0,02 0,00 0,00 0 0,03
x 0,150 0,387 0,03 0,22 0,00 0,00 0 0,1
y 1,974 0,308 0,04 0,90 0,00 0,00 3,37 0,6
z 0,074 0,136 1,13 0,52 0,50 0,49 1,50 0,02
à - 0,486 0 0 0 se a 0 0,0
å - 0 0 0 0 0 0 1,6
ä - 0 0 0 0 0 0 2,1
œ - 0,018 0 0 0 0 0 0
ç - 0,085 0 0 0 0 1,26 0
ĉ - 0 0 0 0,66 0 0 0
è - 0,271 0 0 0 se e 0 0,0
é - 1,904 0 0 0 se e 0 0,0
ê - 0,225 0 0 0 0 0 0
ë - 0,000 0 0 0 0 0 0
ĝ - 0 0 0 0,69 0 0 0
ğ - 0 0 0 0 0 1,13 0
ĥ - 0 0 0 0,02 0 0 0
î - 0,045 0 0 0 0 0 0
ì - 0 0 0 0 se i 0 0
ï - 0,005 0 0 0 0 0 0
ı - 0 0 0 0 0 5,20* 0
ĵ - 0 0 0 0,12 0 0 0
ñ - 0 0 0,03 0 0 0 0
ò - 0 0 0 0 se o 0 0
ö - 0 0 0 0 0 0,87 1,5
ŝ - 0 0 0 0,38 0 0 0
ş - 0 0 0 0 0 1,94 0
ß - 0 0,31 0 0 0 0 0
ù - 0,058 0 0 0 se u 0 0
ŭ - 0 0 0 0,52 0 0 0
ü - 0 0 0 0 0 1,99 0

-*Se İ

Se också

Referenser

  1. English letter frequencies
  2. ”CorpusDeThomasTempé”. http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9. Läst 2007-06-15. 
  3. Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, p.10
  4. Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  5. ”La Oftecoj de la Esperantaj Literoj”. http://lingvakritiko.com/2007/09/13/literoftecoj-kaj-tabelvortoftecoj/. Läst 2007-09-14. 
  6. Simon Singh, Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3
  7. Singh, Simon; Brogren Margareta: Kodboken: konsten att skapa sekretess - från det gamla Egypten till kvantkryptering, Norstedt, Stockholm 1999 (swe). ISBN 91-1-300708-4 (inb.). Libris 8345451. 
Personliga verktyg