Unicode -System in Java

Unicode -System in Java
Programmiersprachen folgen einer Reihe von Standards für die Charaktercodierung. Diese Standards repräsentieren schriftliche Sprachen und definieren einige Regeln, die befolgt werden müssen, um Zeichen zu codieren, die zu diesen geschriebenen Sprachen gehören. Wie bei anderen Programmiersprachen hat Java auch einen Charakter -Codierungsstandard, der als Unicode -System bezeichnet wird. Dieser Beitrag beleuchtet das Java Unicode -System.

Was ist ein Unicode -System?

Das Unicode-System ist ein weltweiter Standard, mit dem 16-Bit-Zeichen codiert werden. Dieses System kann fast jede renommierte Sprache der Welt darstellen.

Warum Unicode -System?

Vor dem Auftreten des Unicode -Systems wurden zahlreiche Standards zur Codierung von Zeichen verwendet. Diese waren:

  1. ASCII
    ASCII, kurz für den amerikanischen Standardcode für den Informationsaustausch ist einer der ältesten und häufigsten Standards für Codierung von Zeichen und enthält Buchstaben A-Z (Großbuchstaben und Kleinbuchstaben) und Nummer 0-9 sowie einige grundlegende Symbole.
  2. ISO 8859-1
    ISO 8859-1 ist ein Standard, der für die westeuropäische Sprache entwickelt wurde, die 128 ASCII-Zeichen sowie 128 zusätzliche Zeichen enthält.
  3. Koi-8
    KOI-8 ist ein Standard, der ursprünglich für Russisch entwickelt wurde, das die Codierung von 8-Bit-Zeichen ermöglicht und lateinische Alphabete und russische Alphabete enthält (beide im Großraum und Kleinbuchstaben).
  4. GB 18030 und Big-5
    GB 18030 und Big-5 sind Standards, die für die Chinesen entwickelt wurden. GB18030 repräsentiert alle 20.902 Han -Charaktere und zusätzlichen DBCs -Symbole, inzwischen Big5 konventionelle chinesische Charaktere.

In den oben genannten Maßstäben war das Problem, dass ein bestimmter Codewert verwendet wurde, um verschiedene Zeichen in mehreren Sprachen darzustellen. Darüber hinaus ist die Kodierung größerer Zeichensets für verschiedene Sprachen unterschiedliche Längen wie 1 Byte, 2 Bytes oder mehr.

Um dieses Problem zu lösen, wurde das Unicode -System für Sprachen entwickelt. Jedes Zeichen in diesem System hält 2 Byte, daher wird für jedes Zeichen in Java 2 Byte verwendet.

Abschluss

Das Unicode-System ist ein globaler Standard, der für die Charaktercodierung von 16-Bit-Zeichen verwendet wird. Es entstand als Lösung für die Probleme, die in zuvor entwickelten Sprachstandards aufgetreten sind. Java verwendet dieses System, das für jeden Charakter ein 2 -Byte halten soll. In diesem Beitrag wird das Java Unicode -System eingehend erörtert.