Uniform Resource Locator

Från Rilpedia

Hoppa till: navigering, sök
Wikipedia_letter_w.pngTexten från svenska WikipediaWikipedialogo_12pt.gif
rpsv.header.diskuteraikon2.gif
Uppslagsordet URL leder hit. För svenska upphovsrättslagen, se Upphovsrätt i Sverige.

Uniform Resource Locator (URL) är den korrekta benämningen för en webbadress som till exempel http://sv.wikipedia.org:80/wiki.

URL uppfanns 1989 av Tim Berners-Lee i samband med att World Wide Web lanserades. URLen är konstruerad för att vara universell och för att fungera olika former av kommunikation via Internet som en vägkarta. En URL kan användas för att hitta fram till en viss dator likväl som för att peka ut riktningen via en hyperlänk i en text. En URL kan även användas för att hitta en fil på den egna datorn.

Som exempel kan vi betrakta URLen http://sv.wikipedia.org:80/w/index.php?title=Dator&action=edit#Historia. URLen består av fyra olika delar som var och en visar olika information som är nödvändig för att hitta fram till en viss plats på Internet.

  • http: talar om vilket protokoll (språk) som skall användas. I detta fall används protokollet HTTP (det vanligaste på WWW). Allt som följer efter : beror på vilket protokoll som man har angett i URLen. Andra vanliga protokoll är FTP (ftp://username:password@domain/folder/file) eller file:// för en lokal fil.
Protokollet kan också avgöra vilket program datorn ska använda för att öppna länken, till exempel öppnas irc: i ens ircklient, mailto: i ens E-postklient, och dchub: i Direct Connect.
  • //sv.wikipedia.org talar om vilken domän (dator) vi ska leta oss fram till.
  • :80 talar om vilken port i mottagardatorn vi ska använda. TCP-port 80 som används i det här fallet är standard vid kommunikation med en HTTP-server och behöver därför inte anges explicit.
  • /w/index.php visar ofta vilken fil vi söker på serverdatorn.
  • ?title=Dator&action=edit talar om extra information vi ska skicka till Wikipedias server, ofta parametrar till det datorprogram som anges genom filnamnet. I det här fallet ska vi gå till artikeln Dator och redigera den (action=edit).
  • #Historia talar om att webbläsaren ska hoppa till stycket Historia.

Innehåll

URL-design

Enligt praxis bör man i sin design av URL:er dölja den underliggande tekniska implementationen. Istället bör en URL identifiera den resurs (t.ex. en sida, produkt eller registerpost) som man vill utföra en handling på (t.ex. att redigera den)[1]. Exempel:

http://www.example.com/minsida?action=edit

Ett vanligt förekommande fel är att path-delen används för att identifiera det skript som utför handlingen (edit.php):

http://www.example.com/edit.php?id=minsida

URL-kodning

Engelska bokstäver A-Z och a-z, siffror 0-9 samt tecknen - _ . ~ kan användas fritt som de är i en URL. Övriga tecken i en URL måste URL-kodas för att överföras korrekt. Det gäller dels reserverade tecken som har speciell betydelse i en URL, som bland annat & # / ? +, och alla övriga tecken. Vill man använda dessa som vanliga filnamn, så måste de kodas med ett procenttecken och två hexadecimala siffror.

För binära värden, som inte är text, kodar man byte för byte. För text, vilket är det vanligaste (mera specifikt är det oftast filnamn) måste man veta vilken teckenkodning det är (samband mellan nummer och tecken). Enligt den standard som gällt sedan 2005 ska det vara Unicode kodad med UTF-8. Det innebär en byte för ASCII-tecken (7-bits) och 2 bytes för (nästan alla) övriga latinska och kyrilliska tecken, och tre bytes för (nästan alla) övriga tecken. Sedan kodas varje byte med % och två hexadecimala siffror. Normalt i sker detta automatiskt av webbläsaren, åtminstone nyare webläsare, och de använder normalt UTF-8.

Dock kan servrar i vissa fall vara konfigurerade att använda en annan teckentabell, till exempel Latin-1. I så fall bör webadressen alltid skrivas med %-kodning. Traditionellt undviker man helt enkelt tecken utöver US-ASCII, t.ex. å,ä,ö. För att säkerställa en korrekt transfer av adressens tecken anges de enligt följande exempel:

Tecken Kod (Latin-1) Kod (unicode)
<space>  %20  %20
 %  %25  %25
&  %26  %26
,  %2C  %2C
å  %E5  %C3%A5
ä  %E4  %C3%84
ö  %F6  %C3%B6
ü  %FC  %C3%BC
Å  %C5  %C3%85
Ä  %C4  %C3%84
Ö  %D6  %C3%96
æ  %E6  %C3%A6
ø  %F8  %C3%B8
é  %E9  %C3%A9
ć finns ej  %C4%87
œ finns ej  %C5%93
finns ej  %E8%8F%AF
Exempel: http://sv.wikipedia.org/wiki/Malmö bör skrivas som http://sv.wikipedia.org/wiki/Malm%C3%B6. Nyare webbläsare gör detta automatiskt.

När det gäller själva domännamnet används en annan nyare och kompaktare standard, Punycode.

Se även

Referenser

  1. ”RFC 3986: Uniform Resource Identifier (URI): Generic Syntax”. 2005-01-30. http://gbiv.com/protocols/uri/rfc/rfc3986.html. Läst 2007-09-14. 
Personliga verktyg