Mojibake – Wikipédia, a enciclopédia livre

Texto em UTF-8 apresentado com ISO-8859-1
Texto em ISO-8859-1 apresentado com UTF-8

Mojibake (文字化け, moji caractere + bake mudança, literalmente caracteres fantasmas ou caracteres mudados) é o termo da língua japonesa que se costuma utilizar para descrever o problema de caracteres incorretamente interpretados em sistemas de informática (Conhecido como "trubisco" ou "garatuja" em português).[1][2] Geralmente os caracteres são substituídos pelo símbolo �.

O Mojibake acontece quando algum programa de computador recebe informação de texto cujos caracteres estão codificados por uma convenção com a qual não sabe lidar. Frequentemente isso acontece porque o programa foi feito antes que se chegasse a um padrão bem aceito para a representação de sinais diacríticos de uma língua estrangeira.

Uma defesa básica contra o problema de Mojibake é escrever ou converter os textos para transcrições romanizadas sem diacríticos (escrevendo, por exemplo, "Voce esta bem" ou "Voce estah bem?" em vez de "Você está bem?"). A desvantagem, é claro, consiste em perda de elegância e possivelmente de clareza no texto.

Entre as línguas mais associadas ao Mojibake incluem-se o japonês, o chinês e o russo (que usa o alfabeto cirílico). Algumas vezes ocorre Mojibake entre duas codificações distintas da mesma língua, como por exemplo EUC-JP e Shift-JIS, ambos feitos para codificar a língua japonesa.

O Mojibake chama-se luan ma (亂碼 ou 乱码 luan4 ma3), ou "código caótico" na língua chinesa.

Exemplo: "文字化け" pode ser mostrado como "•¶Žš‰»‚¯" (é possível que este exemplo não seja mostrado corretamente, dependendo do software exato usado para ver este artigo).


Ver também[editar | editar código-fonte]

Referências