Dieser Artikel benötigt zusätzliche Zitate zur Überprüfung . ( April 2010 ) ( Erfahren Sie, wie und wann Sie diese Vorlagennachricht entfernen können ) |
Specials | |
---|---|
Reichweite | U + FFF0..U + FFFF (16 Codepunkte) |
Flugzeug | BMP |
Skripte | Verbreitet |
Zugewiesen | 5 Codepunkte |
Ungebraucht | 9 reservierte Codepunkte 2 Nichtzeichen |
Unicode-Versionsverlauf | |
1.0.0 (1991) | 1 (+1) |
2,1 (1998) | 2 (+1) |
3,0 (1999) | 5 (+3) |
Hinweis : [1] [2] |
Specials ist ein kurzer Unicode- Block, der ganz am Ende der mehrsprachigen Grundebene bei U + FFF0 - FFFF zugewiesen wird . Von diesen 16 Codepunkten wurden seit Unicode 3.0 fünf zugewiesen:
- U + FFF9 INTERLINEAR ANNOTATION ANCHOR , markiert den Beginn des kommentierten Textes
- U + FFFA INTERLINEAR ANNOTATION SEPARATOR , markiert den Beginn der Annotation von Zeichen.
- U + FFFB INTERLINEAR ANNOTATION TERMINATOR , markiert das Ende des Anmerkungsblocks
- U + FFFC  OBJECT REPLACEMENT CHARACTER , Platzhalter im Text für ein anderes nicht angegebenes Objekt, z. B. in einemzusammengesetzten Dokument.
- U + FFFD ERSATZZEICHEN zum Ersetzen eines unbekannten, nicht erkannten oder nicht darstellbaren Zeichens
- U + FFFE <noncharacter-FFFE> kein Zeichen.
- U + FFFF <noncharacter-FFFF> kein Zeichen.
FFFE und FFFF sind nicht im üblichen Sinne nicht zugewiesen, aber garantiert keine Unicode-Zeichen . Sie können verwendet werden, um das Codierungsschema eines Textes zu erraten, da jeder Text, der diese enthält, per Definition kein korrekt codierter Unicode-Text ist. Das U + FEFF BYTE ORDER MARK- Zeichen von Unicode kann am Anfang eines Unicode-Textes eingefügt werden, um seine Endianness zu signalisieren : Ein Programm, das einen solchen Text liest und auf 0xFFFE stößt, würde dann wissen, dass es die Bytereihenfolge für alle folgenden Zeichen ändern sollte.
Der Blockname in Unicode 1.0 war Special . [3]
Ersatzzeichen [ Bearbeiten ]
Das Ersatzzeichen (häufig als schwarzer Diamant mit einem weißen Fragezeichen angezeigt) ist ein Symbol, das im Unicode- Standard am Codepunkt U + FFFD in der Specials- Tabelle enthalten ist. Es wird verwendet, um Probleme anzuzeigen, wenn ein System einen Datenstrom nicht in ein korrektes Symbol rendern kann. Es wird normalerweise angezeigt, wenn die Daten ungültig sind und keinem Zeichen entsprechen:
Stellen Sie sich eine Textdatei vor, die das deutsche Wort für in der ISO-8859-1- Codierung ( 0x66 0xFC 0x72
) enthält. Diese Datei wird jetzt mit einem Texteditor geöffnet, der davon ausgeht, dass die Eingabe UTF-8 ist . Das erste und das letzte Byte sind gültige UTF-8-Codierungen von ASCII, aber das mittlere Byte ( 0xFC
) ist kein gültiges Byte in UTF-8. Daher könnte ein Texteditor dieses Byte durch das Ersatzzeichensymbol ersetzen, um eine gültige Zeichenfolge von Unicode- Codepunkten zu erzeugen . Die gesamte Zeichenfolge wird jetzt folgendermaßen angezeigt: "f r".
Ein schlecht implementierter Texteditor kann den Ersatz in UTF-8-Form speichern. Die Textdateidaten sehen dann folgendermaßen aus : 0x66 0xEF 0xBF 0xBD 0x72
, die in ISO-8859-1 als "f�r" (dies wird als Mojibake bezeichnet ) angezeigt werden . Da die Ersetzung für alle Fehler gleich ist, ist es unmöglich, das ursprüngliche Zeichen wiederherzustellen. Ein besseres (aber schwieriger zu implementierendes) Design besteht darin, die ursprünglichen Bytes einschließlich des Fehlers beizubehalten und nur beim Anzeigen des Texts in den Ersatz zu konvertieren . Auf diese Weise kann der Texteditor die ursprüngliche Bytesequenz speichern und dem Benutzer weiterhin die Fehleranzeige anzeigen.
Zu einer Zeit wurde das Ersatzzeichen häufig verwendet, wenn in einer Schriftart für dieses Zeichen keine Glyphe verfügbar war. Die meisten modernen Textwiedergabesysteme verwenden jedoch stattdessen das .notdef- Zeichen einer Schriftart. In den meisten Fällen handelt es sich dabei um ein leeres Feld (oder "?" Oder "X" in einem Feld [4] ), das manchmal als " Tofu " bezeichnet wird (dieser Browser zeigt?). ???). Für dieses Symbol gibt es keinen Unicode-Codepunkt.
Daher wird das Ersatzzeichen nur noch für Codierungsfehler angezeigt, z. B. für ungültiges UTF-8. Einige Software versucht, dies zu verbergen, indem sie die Bytes von ungültigem UTF-8 in übereinstimmende Zeichen in Windows-1252 übersetzt (da dies die wahrscheinlichste Ursache für diese Fehler ist), sodass das Ersatzzeichen nie angezeigt wird.
Unicode-Diagramm [ Bearbeiten ]
Specials [1] [2] [3] Offizielle Code-Tabelle des Unicode-Konsortiums (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B. | C. | D. | E. | F. | |
U + FFFx | IA A. | IA S. | IA T. |  | ||||||||||||
Anmerkungen
|
Geschichte [ bearbeiten ]
In den folgenden Unicode-bezogenen Dokumenten werden Zweck und Prozess der Definition bestimmter Zeichen im Block Specials aufgezeichnet:
Ausführung | Endgültige Codepunkte [a] | Anzahl | UTC ID | L2 ID | WG2 ID | Dokument |
---|---|---|---|---|---|---|
1.0.0 | U + FFFD | 1 | (bestimmt werden) | |||
U + FFFE..FFFF | 2 | (bestimmt werden) | ||||
L2 / 01-295R | Moore, Lisa (06.11.2001), "Motion 88-M2", Protokoll der UTC / L2-Sitzung Nr. 88 | |||||
L2 / 01-355 | N2369 (HTML , Dokument ) | Davis, Mark (26.09.2001), Antrag auf Zulassung von FFFF, FFFE in UTF-8 im Text von ISO / IEC 10646 | ||||
L2 / 02-154 | N2403 | Umamaheswaran, VS (2002-04-22), "9.3 Zulassen von FFFF und FFFE in UTF-8", Protokollentwurf des WG 2-Treffens 41, Hotel Phoenix, Singapur, 15.10.2001 | ||||
2.1 | U + FFFC | 1 | UTC / 1995-056 | Sargent, Murray (06.12.1995), Empfehlung zum Codieren eines WCH_EMBEDDING-Zeichens | ||
UTC / 1996-002 | Aliprand, Joan; Hart, Edwin; Greenfield, Steve (05.03.1996), "Embedded Objects", UTC # 67 Minutes | |||||
N1365 | Sargent, Murray (1996-03-18), Angebotszusammenfassung - Objektersetzungszeichen | |||||
N1353 | Umamaheswaran, VS; Ksar, Mike (1996-06-25), "8.14", Protokollentwurf des WG2 Copenhagen Meeting # 30 | |||||
L2 / 97-288 | N1603 | Umamaheswaran, VS (1997-10-24), "7.3", unbestätigtes Sitzungsprotokoll, WG 2-Sitzung Nr. 33, Heraklion, Kreta, Griechenland, 20. Juni - 4. Juli 1997 | ||||
L2 / 98-004R | N1681 | Text von ISO 10646 - AMD 18 für die PDAM-Registrierung und die FPDAM-Abstimmung , 22.12.1997 | ||||
L2 / 98-070 | Aliprand, Joan; Winkler, Arnold, "Zusätzliche Kommentare zu 2.1", Protokoll der gemeinsamen UTC- und L2-Sitzung von der Sitzung in Cupertino vom 25. bis 27. Februar 1998 | |||||
L2 / 98-318 | N1894 | Überarbeiteter Text von 10646-1 / FPDAM 18, ÄNDERUNG 18: Symbole und andere , 1998-10-22 | ||||
3.0 | U + FFF9..FFFB | 3 | L2 / 97-255R | Aliprand, Joan (1997-12-03), "3.D Vorschlag für Inline-Notation (Rubin)", Genehmigtes Protokoll - Gemeinsame Sitzung UTC Nr. 73 & L2 Nr. 170, Palo Alto, CA - 4.-5. August 1997 | ||
L2 / 98-055 | Freytag, Asmus (22.02.1998), Unterstützung für die Implementierung von Inline- und Interlinear-Annotationen | |||||
L2 / 98-070 | Aliprand, Joan; Winkler, Arnold, "3.C.5. Unterstützung für die Implementierung von Inline- und interlinearen Annotationen", Protokoll der gemeinsamen UTC- und L2-Sitzung vom Treffen in Cupertino vom 25. bis 27. Februar 1998 | |||||
L2 / 98-099 | N1727 | Freytag, Asmus (1998-03-18), Unterstützung für die Implementierung interlinearer Annotationen, wie sie in der ostasiatischen Typografie verwendet werden | ||||
L2 / 98-158 | Aliprand, Joan; Winkler, Arnold (1998-05-26), "Inline and Interlinear Annotations", Protokollentwurf - Gemeinsame Sitzung UTC # 76 & NCITS Subgroup L2 # 173, Tredyffrin, Pennsylvania, 20.-22. April 1998 | |||||
L2 / 98-286 | N1703 | Umamaheswaran, VS; Ksar, Mike (1998-07-02), "8.14", unbestätigtes Sitzungsprotokoll, WG 2-Sitzung Nr. 34, Redmond, WA, USA; 1998-03-16--20 | ||||
L2 / 98-270 | Hiura, Hideki; Kobayashi, Tatsuo (29.07.1998), Vorschlag zum Inline- und Interlinear-Annotationsvorschlag | |||||
L2 / 98-281R (pdf , html ) | Aliprand, Joan (1998-07-31), "In-Line and Interlinear Annotation (III.C.1.c)", unbestätigtes Protokoll - UTC # 77 & NCITS-Untergruppe L2 # 174 GEMEINSAMES TREFFEN, Redmond, WA - Juli 29-31, 1998 | |||||
L2 / 98-363 | N1861 | Sato, TK (1998-09-01), Ruby - Marker | ||||
L2 / 98-372 | N1884R2 (pdf , doc ) | Whistler, Ken; et al. (1998-09-22), Zusätzliche Zeichen für das UCS | ||||
L2 / 98-416 | N1882.zip | Unterstützung für die Implementierung interlinearer Anmerkungen , 23.09.1998 | ||||
L2 / 98-329 | N1920 | Kombinierte PDAM-Registrierung und Gegenüberstellung zu WD für ISO / IEC 10646-1 / Amd. 30, ÄNDERUNGSANTRAG 30: Zusätzliche lateinische und andere Zeichen , 1998-10-28 | ||||
L2 / 98-421R | Suignard, Michel; Hiura, Hideki (04.12.1998), Anmerkungen zu den interlinearen Annotationszeichen PDAM 30 | |||||
L2 / 99-010 | N1903 (pdf , html , doc ) | Umamaheswaran, VS (30.12.1998), "8.2.15", Protokoll der Sitzung 35 von WG 2, London, UK; 1998-09-21-25 | ||||
L2 / 98-419 (pdf , doc ) | Aliprand, Joan (05.02.1999), "Interlinear Annotation Characters", Genehmigtes Protokoll - Gemeinsame Sitzung UTC # 78 & NCITS-Untergruppe L2 # 175, San Jose, CA - 1.-4. Dezember 1998 | |||||
UTC / 1999-021 | Duerst, Martin; Bosak, Jon (08.06.1999), W3C XML CG-Anweisung zu Anmerkungszeichen | |||||
L2 / 99-176R | Moore, Lisa (04.11.1999), "W3C Liaison Statement on Annotation Characters", Protokoll der gemeinsamen UTC / L2-Sitzung vom 8. bis 10. Juni 1999 in Seattle | |||||
L2 / 01-301 | Whistler, Ken (2001-08-01), "E. Wird als" stark entmutigt "für den Austausch von Klartext angegeben", Analyse der Zeichenverwertung im Unicode-Standard | |||||
|
Siehe auch [ Bearbeiten ]
- Unicode-Steuerzeichen
Referenzen [ bearbeiten ]
- ^ "Unicode-Zeichendatenbank" . Der Unicode-Standard . Abgerufen am 09.07.2016 .
- ^ "Aufgezählte Versionen des Unicode-Standards" . Der Unicode-Standard . Abgerufen am 09.07.2016 .
- ^ "3.8: Block-für-Block-Diagramme" (PDF) . Der Unicode-Standard . Version 1.0. Unicode-Konsortium .
- ^ "Empfehlungen für OpenType-Schriftarten (OpenType 1.7) - Typografie" . docs.microsoft.com . Abgerufen am 18. Oktober 2020 .