Aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Specials ist ein kurzer Unicode- Block, der ganz am Ende der mehrsprachigen Grundebene bei U + FFF0 - FFFF zugewiesen wird . Von diesen 16 Codepunkten wurden seit Unicode 3.0 fünf zugewiesen:

  • U + FFF9 INTERLINEAR ANNOTATION ANCHOR , markiert den Beginn des kommentierten Textes
  • U + FFFA INTERLINEAR ANNOTATION SEPARATOR , markiert den Beginn der Annotation von Zeichen.
  • U + FFFB INTERLINEAR ANNOTATION TERMINATOR , markiert das Ende des Anmerkungsblocks
  • U + FFFC OBJECT REPLACEMENT CHARACTER , Platzhalter im Text für ein anderes nicht angegebenes Objekt, z. B. in einemzusammengesetzten Dokument.
  • U + FFFD ERSATZZEICHEN zum Ersetzen eines unbekannten, nicht erkannten oder nicht darstellbaren Zeichens
  • U + FFFE <noncharacter-FFFE> kein Zeichen.
  • U + FFFF <noncharacter-FFFF> kein Zeichen.

FFFE und FFFF sind nicht im üblichen Sinne nicht zugewiesen, aber garantiert keine Unicode-Zeichen . Sie können verwendet werden, um das Codierungsschema eines Textes zu erraten, da jeder Text, der diese enthält, per Definition kein korrekt codierter Unicode-Text ist. Das U + FEFF BYTE ORDER MARK- Zeichen von Unicode kann am Anfang eines Unicode-Textes eingefügt werden, um seine Endianness zu signalisieren : Ein Programm, das einen solchen Text liest und auf 0xFFFE stößt, würde dann wissen, dass es die Bytereihenfolge für alle folgenden Zeichen ändern sollte.

Der Blockname in Unicode 1.0 war Special . [3]

Ersatzzeichen [ Bearbeiten ]

Ersatzzeichen

Das Ersatzzeichen (häufig als schwarzer Diamant mit einem weißen Fragezeichen angezeigt) ist ein Symbol, das im Unicode- Standard am Codepunkt U + FFFD in der Specials- Tabelle enthalten ist. Es wird verwendet, um Probleme anzuzeigen, wenn ein System einen Datenstrom nicht in ein korrektes Symbol rendern kann. Es wird normalerweise angezeigt, wenn die Daten ungültig sind und keinem Zeichen entsprechen:

Stellen Sie sich eine Textdatei vor, die das deutsche Wort für in der ISO-8859-1- Codierung ( 0x66 0xFC 0x72) enthält. Diese Datei wird jetzt mit einem Texteditor geöffnet, der davon ausgeht, dass die Eingabe UTF-8 ist . Das erste und das letzte Byte sind gültige UTF-8-Codierungen von ASCII, aber das mittlere Byte ( 0xFC) ist kein gültiges Byte in UTF-8. Daher könnte ein Texteditor dieses Byte durch das Ersatzzeichensymbol ersetzen, um eine gültige Zeichenfolge von Unicode- Codepunkten zu erzeugen . Die gesamte Zeichenfolge wird jetzt folgendermaßen angezeigt: "f r".

Ein schlecht implementierter Texteditor kann den Ersatz in UTF-8-Form speichern. Die Textdateidaten sehen dann folgendermaßen aus : 0x66 0xEF 0xBF 0xBD 0x72, die in ISO-8859-1 als "f�r" (dies wird als Mojibake bezeichnet ) angezeigt werden . Da die Ersetzung für alle Fehler gleich ist, ist es unmöglich, das ursprüngliche Zeichen wiederherzustellen. Ein besseres (aber schwieriger zu implementierendes) Design besteht darin, die ursprünglichen Bytes einschließlich des Fehlers beizubehalten und nur beim Anzeigen des Texts in den Ersatz zu konvertieren . Auf diese Weise kann der Texteditor die ursprüngliche Bytesequenz speichern und dem Benutzer weiterhin die Fehleranzeige anzeigen.

Zu einer Zeit wurde das Ersatzzeichen häufig verwendet, wenn in einer Schriftart für dieses Zeichen keine Glyphe verfügbar war. Die meisten modernen Textwiedergabesysteme verwenden jedoch stattdessen das .notdef- Zeichen einer Schriftart. In den meisten Fällen handelt es sich dabei um ein leeres Feld (oder "?" Oder "X" in einem Feld [4] ), das manchmal als " Tofu " bezeichnet wird (dieser Browser zeigt?). ???). Für dieses Symbol gibt es keinen Unicode-Codepunkt.

Daher wird das Ersatzzeichen nur noch für Codierungsfehler angezeigt, z. B. für ungültiges UTF-8. Einige Software versucht, dies zu verbergen, indem sie die Bytes von ungültigem UTF-8 in übereinstimmende Zeichen in Windows-1252 übersetzt (da dies die wahrscheinlichste Ursache für diese Fehler ist), sodass das Ersatzzeichen nie angezeigt wird.

Unicode-Diagramm [ Bearbeiten ]

Geschichte [ bearbeiten ]

In den folgenden Unicode-bezogenen Dokumenten werden Zweck und Prozess der Definition bestimmter Zeichen im Block Specials aufgezeichnet:

Siehe auch [ Bearbeiten ]

  • Unicode-Steuerzeichen

Referenzen [ bearbeiten ]

  1. ^ "Unicode-Zeichendatenbank" . Der Unicode-Standard . Abgerufen am 09.07.2016 .
  2. ^ "Aufgezählte Versionen des Unicode-Standards" . Der Unicode-Standard . Abgerufen am 09.07.2016 .
  3. ^ "3.8: Block-für-Block-Diagramme" (PDF) . Der Unicode-Standard . Version 1.0. Unicode-Konsortium .
  4. ^ "Empfehlungen für OpenType-Schriftarten (OpenType 1.7) - Typografie" . docs.microsoft.com . Abgerufen am 18. Oktober 2020 .