Korpuslingvistik

Från Rilpedia

Hoppa till: navigering, sök
Wikipedia_letter_w.pngTexten från svenska WikipediaWikipedialogo_12pt.gif
rpsv.header.diskuteraikon2.gif

Korpuslingvistik kallas metoden att använda en korpus för språkstudier[1]. Termen myntades redan på 1980-talet, men metoden användes redan årtionden tidigare.

Korpus

En korpus är en stor samling språklig data, det kan röra sig om både transkriberat tal och skriven text. Det finns lite olika sätt att definiera en korpus, men vanligen lagras en korpus elektroniskt med syfte att vara representativ för språket i fråga.

En korpus kan vara synkron eller diakron. Det vanliga är att en korpus har finit storlek, men det finns också korpusar/korpora som växter med tiden, kallade monitorkorpusar. En korpus kan innehålla mer än ett språk, och vara av typen parallekorpus eller jämförbar korpus.

Exempel på korpusar/korpora: SUC[2] Europarl[3] BNC[4] Brown University Corpus[5]

Referenser

  1. http://sprakteknologi.se/vad-aer-sprakteknologi/lexikon/korpusar, läst 26 februari 2009.
  2. http://www.ling.su.se/staff/sofia/suc/suc.html, läst 26 februari 2009.
  3. http://www.statmt.org/europarl/, läst 26 februari 2009.
  4. http://www.natcorp.ox.ac.uk/, läst 26 februari 2009.
  5. http://pioneer.chula.ac.th/~awirote/ling/corpuslst.htm, läst 26 februari 2009.
  • McEnery, T., Xiao, R., Tono Y. 2006. Corpus-Based Language Studies - an advanced resource book
Personliga verktyg