+5

Trabalhando com Unicode

criado por Rubens Takiguti Ribeiro em 02/12/2009 9:28pm
Codificação UTF-32

Bom, sabendo o que é Unicode e o que é codificação, vamos falar sobre o tipo de codificação mais simples baseado em Unicode: o UTF-32. UTF significa "Unicode Transformation Formats" e possui diferentes formas de codificar/decodificar os símbolos da tabela Unicode em formato computacional.

A codificação UTF-32 é simples pois cada símbolo é sempre representado com 4 bytes. Com 4 bytes, é possível representar 4.294.967.296 valores diferentes, que é o valor de 2 elevado a 32.

Esta codificação, embora simples, é pouco usada, já que gasta muitos bytes para representar um único símbolo. Por outro lado, o tamanho é fixo, então é mais fácil obter o N-ésimo símbolo de uma sequência de símbolos (basta saltar para o 4 x N byte da sequência).

Para escrever "AB" em ASCCI, seriam necessários 2 bytes assim:
01000001 01000010

Em UTF-32, para escrever "AB", seriam necessários 8 bytes assim:
00000000 00000000 00000000 01000001
00000000 00000000 00000000 01000010

Note que o desperdício é alto, mas a forma de codificar/decodificar é muito simples.

Comentários:

Mostrando 1 - 6 de 6 comentários
PazNatan disse:
ficou legalzinho
03/05/2010 1:01pm (~10 anos atrás)

Nelson disse:
Artigo explicado de forma bem "entendível", gostei muito.
Sugiro um deste tipo falando de array, seria legal.
17/03/2010 1:30pm (~10 anos atrás)

Ótimo artigo!!!
Você explicou muito bem desde a base até ao topo, fazendo-o ficar fácil de compreender!!!
Parabéns!!!
13/03/2010 7:13pm (~10 anos atrás)

Daniel Silva disse:
Uau! Magnífico o artigo! Muito elucidativo! Meus parabéns!
06/01/2010 1:10am (~10 anos atrás)

Marcos Regis disse:
Ótimo artigo. Parabéns.
05/12/2009 4:13pm (~11 anos atrás)

Novo Comentário:

(Você pode usar tags como <b>, <i> ou <code>. URLs serão convertidas para links automaticamente.)