ISO/IEC 8859-1
Från Rilpedia
ISO 8859-1 eller mer formellt ISO/IEC 8859-1 (även kallad ISO Latin-1) är första delen i ISO/IEC 8859, som är en serie av standarder för teckenkodning definierad av ISO. Den kodar tecken ur det latinska alfabetet och består av 191 tecken kodade som 8 bitars-värden.
Denna teckenkodning stödjer västeuropeiska språk, bland annat engelska, tyska, holländska, svenska, norska, danska, isländska, spanska, portugisiska, italienska. Dessutom franska och finska med viss begränsning (ŒœŠšČč finns inte). Språk som till exempel samiska, polska, ungerska, turkiska stöds inte, utan det finns andra ISO/IEC 8859-varianter för dem.
ISO/IEC 8859-1 lider av ett par problem som till exempel att några tecken som används för franska och för finska samt eurosymbolen saknas. På grund av detta har ISO/IEC 8859-15 skapats som en uppdatering av ISO/IEC 8859-1 (Detta krävde dock att man uteslöt några sällan använda tecken som finns i ISO/IEC 8859-1, bland dem några fristående diakriter och några kvottecken, till exempel ½). ISO/IEC 8859-15 har inte använts så mycket eftersom Windows CP 1252 och Unicode har tagit över.
Innehåll |
Kodtabell
Eftersom alla 191 tecken i ISO/IEC 8859-1 är synliga (utom SHY) och kompatibla med de flesta webbläsare kan de visas i en tabell.
ISO/IEC 8859-1 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
0x | reserverat för styrtecken (från ISO/IEC 6429) | |||||||||||||||
1x | ||||||||||||||||
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | |
8x | reserverat för styrtecken (till exempel (!) från ISO/IEC 6429) | |||||||||||||||
9x | ||||||||||||||||
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
I tabellen ovan är 20 det vanliga blanksteget och A0 är nödvändigt ("hårt") blanksteg, NO-BREAK SPACE.
Kodvärdena 00–1F, 7F och 80–9F har inga tecken enligt ISO/IEC 8859-1 (ej heller i någon annan ISO-standard för grafiska tecken). Dessa positioner är istället reserverade för styrtecken, till exempel från ISO/IEC 6429, eller i vissa fall från ISO 6630.
ISO/IEC 8859-1 och ISO-8859-1
ISO-8859-1 (lägg märke till det extra bindestrecket, och att "IEC" inte är utskrivet) är en teckenkodning som IANA har registrerat för användning på Internet. Den består av ISO/IEC 8859-1 och en variant av styrkoder nästan enligt ISO/IEC 6429.
IANA har registrerat (http://www.iana.org/assignments/character-sets) följande namn för denna teckenkodning:
- ISO_8859-1:1987
- ISO_8859-1
- ISO-8859-1 (föredraget namn för MIME)
- iso-ir-100
- csISOLatin1
- latin1
- l1
- IBM819
- CP819
Namnet Latin-1 är inte registrerat av IANA.
Följande tabell visar ISO-8859-1, med trebokstäversförkortningar för styrtecken.
ISO-8859-1 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
0x | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | SO | SI |
1x | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | IS4 | IS3 | IS2 | IS1 |
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | } | ~ | DEL | |
8x | PAD | HOP | BPH | NBH | IND | NEL | SSA | ESA | HTS | HTJ | VTS | PLD | PLU | RI | SS2 | SS3 |
9x | DCS | PU1 | PU2 | STS | CCH | MW | SPA | EPA | SOS | SGCI | SCI | CSI | ST | OSC | PM | APC |
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
ISO-8859-1 är vanligt förekommande för X Window System på de flesta Unix-maskiner.
ISO-8859-1 och Windows CP 1252
Windows stöjder ett antal teckenkodningar definierade av Microsoft. En av dem är Windows-1252, och denna används som systemets default-kodning på vissa språkversioner av Windows, t.ex. de större i västra och norra Europa. Windows-1252 är en teckenkodning som i stort liknar ISO-8859-1, men skiljer sig från den genom att ha skrivbara tecken istället för styrtecken på koderna 80–9F (hexadecimalt). I detta område finns tecken som stödjer franska (ŒœŸ), finska lånord (ŠšČ莞), slovenska (Č芚Žž), euro (€), holländska gulden (ƒ), tyska citationstecken („”) och lite annat man vill ha i Västeuropa.
Kodningen kallas CP1252 och har det IANA-registrerade namnet Windows-1252. Många versioner av Windows använder andra kodningar som default-kodning, men alla stödjer även andra Windows-kodningar, och andra kodningar. Men i allt högre utsträckning stöds Unicode, i högre grad ju nyare systemet eller applikationen är.
Eftersom ISO-8859-1 och Windows-1252 är lika förutom i området 80–9F, så har det varit vanligt att man egentligen använder Windows-1252, men markerar dokument som om de vore kodade i ISO-8859-1. Webbläsare, till exempel, låter därför ofta tolka en webbsida som om den är kodad i Windows-1252, även om den är märkt (direkt i dokumentet eller via webbservern) som att vara ISO-8859-1. Då styrkoderna i ISO-8859-1:s område 80–9F praktiskt taget aldrig används, i varje fall inte i webbsidor, gör denna tolkning sällan någon skada. Därmed inte sagt att det är vettigt att använda Windows-1252 men påstå att man använder ISO-8859-1. Det kommer att gå sönder i alla webbläsare som inte gör ovan nämnda antagande.
Mac OS
Apple Macintosh använder sig av andra kodningar, till exempel MacRoman, registrerad hos IANA som macintosh, som skiljer sig från Latin-1 vid 80–FF. Mac OS X stödjer även Unicode, samt över dussinet Apple-specifika kodningar och ett flertal andra teckenkodningar förutom MacRoman.
Se även
Externa länkar
- ISO/IEC 8859-1:1998 – Slutgiltigt utkast till standarden (PDF)
- Windows Codepages
- Differences between ANSI, ISO-8859-1 and MacRoman Character Sets
- The Letter Database