Formant

Från Rilpedia

Hoppa till: navigering, sök
Wikipedia_letter_w.pngTexten från svenska WikipediaWikipedialogo_12pt.gif
rpsv.header.diskuteraikon2.gif
Spektrogram med synliga formanter

Formanter är frekvensband med hög energi hos röster eller hos musikinstrument. De framträder som tydliga band vid spektralanalys av sådana ljud och flyttar sig inte när ljudets tonhöjd ändras.

Innehåll

Snäv och vid definition

Inom tal- och språkforskning definieras formant enbart som en resonans i människans ansatsrör.[1][2] Ansatsröret är håligheterna i svalg, mun och näsa. Ett ansatsrör har flera resonanser på olika frekvenser, alltså flera formanter.

Det är människans förmåga att förändra dessa resonanser som ger henne möjligheten att skapa vokaler av olika färg. Men för att förstå vad någon säger krävs också att vi som lyssnare har förmågan att uppfatta formanter i andras tal. Den förmågan har vi, och vi använder den till mycket mer än till talförståelse – den utgör en viktig dimension i all vår ljuduppfattning. Vi hör att ett bräkande får säger bä och inte by, vi uppfattar att bastrumman låter bom och inte bim, och vi kan förstå datorer utan ansatsrör som framställer syntetiskt tal.

För att kunna beskriva hur vi associerar karaktären på ljud från skilda källor med mänskliga vokalklanger har vi behov av ett utvidgat formantbegrepp, ett begrepp som fångar den likhet mellan egna och främmande ljud som vi faktiskt upplever. I så fall kan vi också inkludera formanter som den mänskliga talapparaten inte kan åstadkomma men som ändå tillhör samma dimension av vår hörupplevelse.

Enligt en vid definition kan en formant vara ett maximum i spektrumenvelopen, vars frekvensläge inte nämnvärt påverkas av grundfrekvensen.[3] Denna definition tar inte ställning till vem eller vad som är ljudkällan och inte heller på vilket sätt formantkaraktären uppstår, bara att det är ett frekvensområde som är speciellt gynnat i ljudbilden från en viss källa. Att denna vida definition begränsar sig till enbart ljud och till frekvenser där människan kan uppleva formantkaraktär utsägs inte men förefaller vara underförstått i det givna sammanhanget. Annars blir termen bara ett annat ord för resonans.

Uppkomst och klassificering

Formanter i rösten uppstår genom att ljudet i talapparaten – det vill säga munhålan, näshålan och luftstrupen, ända ner till lungornaresonerar vid vissa frekvenser, som bestäms av bland annat tungans och underkäkens position, vilket ger upphov till band av frekvenser med högre energi.

En formant identifieras vanligen med sin resonansfrekvens, ibland även med sin bandbredd. De olika banden namnges från f1, för bandet med lägst frekvens, och uppåt: f2, f3, …. I analogi med detta kallas grundtonen, något missvisande, ibland för f0.

För vokaler är vanligen tre till fem formanter mätbara. Genom experiment med röstsyntes har fastställts att de tre första formanterna är de mest informationsbärande. Dessa tre har stark korrelation med underkäkens, tungans och läpparnas placering:

  • f1 är starkt korrelerad med tungans och käkens position i höjdled; se sluten respektive öppen vokal
  • f2 är starkt korrelerad med tungans position i djupled; se främre respektive bakre vokal
  • f3 är starkt korrelerad med läpparnas rundning; se rundad respektive orundad vokal

För mycket ljusa röster, som sopranstämma, kan grundtonen hamna nära och till och med över de de lägsta formanterna, f1 och f2. Dessa ljud blir då mycket svåra att identifiera och särskilja.

Vokalformantcentrum
Vokal IPA Formant f1 Formant f2
U u 320 Hz 800 Hz
O o 500 Hz 1000 Hz
Å ɑ 700 Hz 1150 Hz
A a 1000 Hz 1400 Hz
Ö ø 500 Hz 1500 Hz
Y y 320 Hz 1650 Hz
Ä ɛ 700 Hz 1800 Hz
E e 500 Hz 2300 Hz
I i 320 Hz 3200 Hz


Vokalformanter
Vokal Huvudformantområde
U 200 till 400 Hz
O 400 till 600 Hz
A 800 till 1200 Hz
E 400 till 600 och 2200 till 2600 Hz
I 200 till 400 och 3000 till 3500 Hz

Uppmätning och estimering

Flera metoder för att beräkna formanternas värden har tagits fram. De flesta utgår ifrån den akustiska signalen, det vill säga ljudet som produceras, men det finns också metoder där talapparatens egenskaper mäts upp, varpå en modell för ljudproduktionen används för att estimera formanternas värden.

De flesta metoder fungerar bäst då de sätts i ett sammanhang, så att tidigare formantvärden kan användas för att predicera kommande.

Estimering med autoregressiv modell

Talljud kan modelleras som en för kortare tidsintervall svagt stationär stokastisk process, vanligtvis som linjärt filtrerad vitt brus. Om X(n) är en stokastisk, vit process och Y(n) är en modell av talljudet, så kan Y skrivas som en autoregressiv process:

Y(n) + a_1 Y(n-1) + a_2 Y(n-2) + \ldots + a_N Y(n-N) = b_0 X(n).

Parametrarna am och b0 löses med hjälp av Yule–Walker-ekvationerna och en estimering av Y:s autokorrelationsfunktion.

Y:s spektrum ges av

H(f) = \frac{b_0}{1 + a_1 e^{-i2\pi f}+ a_2 e^{-i2\pi 2f} + \ldots + a_N e^{-i2\pi N f}}

H är ett filter med resonansfrekvenser

Talrörsestimering

Den akustiska resonanslåda som talröret motsvarar kan estimeras med hjälp av sammanlänkade rörsegement av olika storlek. Detta rör är stängt i ena änden (vid stämläpparna eller lungorna) och öppet i den andra (vid läpparna eller näsborrarna. Givet denna modell och rörsegmentens respektive diameter kan formanterna estimeras med god precision.

Talröret, eller rättare sagt rörsegmenten, kan estimeras från röntgenfotografier eller -filmer av huvudet under uttal av språkljud. Det är dock en metod som på grund av strålningen inte lämpar sig för större studier på enskilda personer. I dag används hellre magnetisk resonanstomografi, vilket visserligen är dyrare och långsammare, men inte skadligt.

Användning

Formanter har länge varit ett av de viktigaste sätten att akustiskt beskriva språkljud på, och då i synnerhet vokaler.

Igenkänning utan större framgång ...

Tidiga röstsyntetiserare byggdes upp av filter som efterliknade formanternas karaktär, och kallades ofta för formantsyntetiserare.

Typvärden för några svenska vokaler

Formantliknande ljud

I detta avsnitt ges några exempel på ljud som uppvisar formantkaraktär. Ordet formant används då i den vidare bemärkelse som inte alla erkänner.

Tag en vanlig vinflaska. Öppna vattenkranen vid diskbänken så att vattenstrålen delar upp sig i droppar så snart som möjligt. Låt vattnet rinna in i flaskan utan att det nuddar glasväggarna. Dropparna som oupphörligen träffar vattenytan i flaskan skapar ett gurglande ljud som innehåller ett rikt spektrum.[4] Lyft flaskan en aning så att inte hela diskbänken ljuder. Luftvolymen i flaskan gynnar vissa frekvenser. Man hör tydligt en formant som stiger i frekvens i takt med att flaskan fylls och resonansrummet minskar. Vid halvfullt är frekvensen redan hög. Så småningom blir en andra och dovare formant allt tydligare, speciellt om man håller örat nära, och den stiger på samma sätt i frekvens tills flaskan blir helt fylld. Ljudet är inte lätt att härma, men resonansrummets dimensioner ligger i samma härad som vår talapparat och vokalglidningen "o-u-y-i" ligger nära tillhands.

Blåsinstrument med dubbla rörblad har en formant som beror på rörbladens sätt att svänga. Fagotten har en karakteristisk topp runt 500 Hz som utgör den enda påtagliga likheten mellan instrumentets olika toner i en spektralanalys. Ljudet är lätt att härma med den mänskliga rösten. Oboens formant ligger en dryg oktav högre än fagottens.[5][6]

Den akustiska gitarren liksom många andra stränginstrument har sina strängar som ursprunglig orsak till ljudet. Men strängarnas vibrationer övergår i huvudsak till hörbara luftvibrationer genom att först fortplantas till och färgas av en resonanslåda och dess delvis inneslutna luftvolym. Både lådan och luftvolymen har resonanser vid fasta frekvenser, vilket kan kallas för gitarrens formanter. Det är en stor utmaning för gitarrbyggaren att skapa formanter som ger en bra klang genom att bestämma storlek på resonanslådan samt form, material och materialtjocklek i olika punkter.

En wah-wah är en elektronisk effektpedal med en flyttbar formant för modifiering av en elektrisk audiosignal, främst från elgitarr. Ju mer man "gasar", desto högre upp i frekvens hamnar resonansen. Frekvenser som ligger lägre än resonansen släpps också fram ganska bra medan högre frekvenser stryps. Med pedalrörelser kan man ge de spelade tonerna en karaktär som påminner om uttalet "wa-wa-wa".[7] Ett berömt exempel på elgitarr med wah-wah-effekt är introduktionen till Jimi Hendrix' låt "Voodoo child".

En talkbox är en anordning för att modifiera en elektrisk audiosignal med munnen. Signalen kommer ofta från ett spelande musikinstrument eller från en enda övertonsrik syntton. Apparaten har en innesluten liten högtalare som skickar ljudet genom en slang som man leder in i munnen. Man skapar sedan formanter precis som vid vanligt tal, men där stämbanden ersätts med ljudslang. Det modifierade ljudet har en tydlig talkaraktär med mänskliga vokaler som kan fångas upp i en vanlig sångmikrofon precis som när man sjunger.

Referenser

Noter

  1. Sundberg 1989 s 133
  2. Sohlmans 1975
  3. Sohlmans 1975
  4. Berg & Stork beskriver på s 116 ljudet när man häller vatten i en cylinder
  5. Sundberg 1989 s 146
  6. Berg & Stork s 108
  7. R.G. Keen 1999, Human Voices and the Wah Pedal (besökt 2008-11-09)

Källor

  • Sohlmans: Sohlmans musiklexikon, Sohlmans Förlag AB, [1975]. ISBN 91 7198 020 2.  (Uppslagsord "formant" av Johan Sundberg, om snäv och vid definitioner av formant)
  • Johan Sundberg: Musikens ljudlära – hur toner alstras och uppfattas, Proprius förlag, Stockholm [1989], 3:e uppl. ISBN 91-7118-653-0.  (Om formanter i tal och sång, formantfrekvenser för olika vokaler, att höra sina egna formanter, fagott, oboe och synt kontra mänskliga formanter, anser att formanter bara bör avse det mänskliga röstorganet)
  • Richard E. Berg, David G. Stork: The physics of sound, Prentice Hall, [1995]. ISBN 0-13-183047-3. 

Se även

Personliga verktyg