segunda-feira, 20 de outubro de 2014

Padrões de codificação de caracteres

Computadores só trabalham com números. Qualquer outro tipo de informação precisa ser representada por números para ser processada por computadores. Texto é um desses outros tipos de informação que precisa de uma representação numérica nos computadores.


Palavras e frases no texto são criadas a partir de caracteres. Exemplos de caracteres incluem as letras latinas, os ideogramas chineses ou ainda os caracteres Devanagari.


Caracteres são agrupados em conjuntos de caracteres (também chamados de repertório) Isso é então chamado de conjunto de códigos de caracteres quando a cada caractere é atribuído um número em particular, chamado de codepoint. Esses codepoints irão ser representados no computador por um ou mais bytes.
Basicamente, isso significa que todos os caracteres são armazenados em computadores utilizando-se códigos, semelhante às cifras usadas na espionagem. Uma codificação de caracteres é uma chave para destravar (i.e. quebrar) o código. É um conjunto de relações entre os bytes que representam números no computador e caracteres no conjunto de caracteres codificado. Sem a chave, os dados parecem como lixo.




Tabela ASCII

Pronuncia-se "asqui ii". A Tabela ASCII (American Standard Code for Information Interchange =Código Padrão Americano para o Intercâmbio de Informação) consiste em uma tabela composta por vários caracteres (letras, números, simbolos e comandos).Existem duas tabelas ASCII: a de 7 bits (com um total de 128 caracteres) e a de 8 bits (com um total de 256 caracteres, que é o padrão estendido incluindo caracteres acentuados).





Código de UNICODE


Em vez de usar apenas os códigos de 0 a 127, ele utiliza os códigos de valor bem maiores.

O código UNICODE pode representar todos os caracteres específicos de diversos idiomas. Novos códigos são regularmente atribuídos para novos caracteres: caracteres latinos (acentuados ou não), gregos, cirílicos, armênios, hebraicos, tailandeses, hiraganas, katakanas, etc... Só o alfabeto chinês Kanji contém 6879 caracteres.

O Unicode define, então, uma correspondência entre símbolos e números.
(O símbolo "?" será representado pelo número 213).



Sem comentários :

Enviar um comentário