Codificación de caracteres chinos

Este artículo o sección necesita referencias que aparezcan en una publicación acreditada.
Busca fuentes: «Codificación de caracteres chinos» – noticias · libros · académico · imágenes
Este aviso fue puesto el 7 de mayo de 2012.

En ámbito informático, una codificación de caracteres chinos se usa para representar texto escrito en los lenguajes comúnmente identificados como CJK (por las siglas en inglés): chino, japonés y coreano, y vietnamita arcaico. Algunas de estas codificaciones se adaptaron a partir de una ya existente, mientras que otras fueron desarrolladas específicamente para el chino.

Sistemas de codificación de caracteres chino más frecuentes

  • Guobiao, usado principalmente en China continental y Singapur. Todos los estándares están precedidos por GB. La última versión es la GB 18030.
  • Big5, se utiliza en Taiwán, Hong Kong y Macao.
  • Unicode.

Aunque usualmente Guobiao se usa para caracteres tradicionales y Big5 para caracteres simplificados, no hay una relación necesaria entre el sistema de codificación y el tipo de letra o fuente. La relación entre ellos es más bien de tipo práctico.

Conversión entre sistemas

La conversión entre chino tradicional y simplificado ordinariamente trae consigo ciertos problemas, porque en algunos casos, en el proceso de simplificación dos o más ideogramas tradicionales se fusionaron en uno simplificado. Por tanto, la conversión desde tradicional hacia simplificado (relación de varios a uno) no crea problemas técnicos. Por el contrario, la transformación en sentido opuesto puede provocar pérdida de información, sobre todo si se usan versiones primitivas de codificación (por ejemplo, el GB 2312). Esta conversión requiere la interpretación del contexto o el uso de frases comunes para resolver los problemas mencionados. El problema es menor con estándares más recientes, como el GB 18030 o el Unicode, que tienen indicadores de posición diversos para caracteres tradicionales y simplificados.

Otro asunto problemático es el de los caracteres “ausentes”. Aunque en teoría los caracteres ausentes en una codificación son de uso literario o culto, y no se usan en texto ordinario, aparecen con frecuencia en los nombres de las personas. Un ejemplo es el político taiwanés Wang Jian-Hsual, cuyo segundo nombre no aparece en algunas codificaciones. No obstante, el GB 18030 incluye el repertorio completo del Unicode 4.0, incluyendo las extensiones Unihan.

Qué codificación de caracteres escoger tiene también implicaciones políticas, dado que GB es el estándar oficial de la República Popular de China, mientras que Big5 es el estándar de hecho en Taiwán. En Japón, por el contrario, ha habido relativamente poca oposición al uso de Unicode, que resuelve muchos de los problemas que acarrean GB y Big5. Unicode está considerado como políticamente neutral, tiene un buen suporte para caracteres tradicionales y simplificados, y permite una fácil conversión desde las otras dos codificaciones. Más aún, Unicode tiene la ventaja de no estar limitado al chino, sino que incluye a muchas otras lenguas.

Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1074131
  • Wd Datos: Q1074131