Iloj |
UTF-8UTF-8 estas maniero prezenti (enkodigi) unikodajn signojn. Ĝia nomo devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "8" indikas la fakton, ke la plej mallongaj koderoj havas 8 bitojn; la longo de la kodoj povas varii inter 8 kaj 32 bitoj, grupigitaj al 1 ĝis 4 bitokoj. UTF-8 estas difinita en la normo RFC 3629. Principe ĝia skemo povas uzi ĝis 6 bitokojn por unu signo, sed Unikodo estas limigita al 17·216 koderoj, kaj por tiuj sufiĉas 4 bitokoj. UTF-8 sekvas la principon, ke la komenca bitoko de signo estu klare rekonebla. Tiel eblas malkodi signovicon ne nur de la komenco, sed de ajna punkto en ĝi. Tio funkcias, ĉar la unua bitoko en signo neniam komenciĝas per la bitoj "10", sed la sekvaj bitokoj ĉiam. Krome el la unua bitoko klare ekkoneblas, kiom da bitokoj havas la signo, nome tiom, kiom da unuoj estas komence de la unua bitoko. Escepto estas la unu-bitokaj signoj, kiuj komencas per "0". Jena tabelo montras la strukturon de la 1-, 2-, 3- kaj 4-bitokaj signoj (x-oj indikas variajn bitojn):
Oni kritikis pri UTF-8, ke ĝiaj koderoj havas malsamajn longojn. Iam tiurilate la enkodigo UTF-16 havis avantaĝon, sed de kiam 2 bitokoj ne plu sufiĉas por Unikodo, tiu avantaĝo malpliiĝis. La fakto, ke la unu-bitokaj signoj komenciĝas ne per "10", sed per "0", impresas kiel neregulaĵo. Sendube tiun decidon kaŭzis la deziro de kongrueco kun 8-bita reprezento de Askio. |