ISO / IEC 8859-1: 1998 , Informationstechnik - 8-Bit - Single - Byte - codierte Grafik Zeichensätze - Teil 1: lateinische Alphabet No. 1 ist Teil der ISO / IEC 8859 Reihe von ASCII - Standard basierende Zeichenkodierungen , zuerst Die Ausgabe wurde 1987 veröffentlicht. ISO 8859-1 kodiert das, was als "lateinisches Alphabet Nr. 1" bezeichnet wird und aus 191 Zeichen aus der lateinischen Schrift besteht . Dieses Zeichencodierungsschema wird in ganz Amerika , Westeuropa , Ozeanien und weiten Teilen Afrikas verwendet. Es ist die Basis für einige beliebte 8-Bit-Zeichensätze und die ersten beiden Zeichenblöcke in Unicode .
![]() ISO 8859-1 Codepage-Layout | |
MIME / IANA | ISO-8859-1 |
---|---|
Alias (es) | iso-ir-100, csISOLatin1, latin1, 11, IBM819, CP819 |
Sprachen) | Englisch , verschiedene andere |
Standard | ISO / IEC 8859 |
Einstufung | Erweitertes ASCII , ISO 8859 |
Erweitert | US-ASCII |
Beyogen auf | DEC MCS |
gefolgt von | |
Andere verwandte Codierung (en) | BraSCII |
ISO-8859-1 war (zumindest gemäß dem Standard) die Standardcodierung von Dokumenten, die über HTTP mit einem MIME-Typ geliefert wurden, der mit "text /" beginnt ( HTML5 hat dies in Windows-1252 geändert ). [1] [2] Ab Mai 2021 [aktualisieren]wurden 1,3% aller (aber nur 0,9% der Top-1000 [3] ) Web - Sites verwenden ISO 8859-1 . [4] [5] Es ist die weltweit am häufigsten deklarierte Einzelbyte-Zeichencodierung im Web. Da Webbrowser sie jedoch als Obermenge Windows-1252 interpretieren, können die Dokumente Zeichen aus diesem Satz enthalten.
Je nach Land kann die Nutzung viel höher sein als der globale Durchschnitt, z. B. für Deutschland mit 5,6% (und einschließlich Windows-1252 mit 6,3%), [6] [7] oder sogar höher für Minderheitensprachen. [8]
ISO-8859-1 war die Standardcodierung der Werte bestimmter beschreibender HTTP-Header und definierte das in HTML 3.2-Dokumenten zulässige Zeichenrepertoire und wird von vielen anderen Standards spezifiziert. Diese und ähnliche Sätze werden oft als die Codierung von 8-Bit - Text auf angenommenen Unix und Microsoft Windows , wenn es keine Bytereihenfolgemarkierung (BOM); Dies wird nur allmählich auf UTF-8 geändert.
ISO-8859-1 ist der von der IANA bevorzugte Name für diese Norm, wenn sie durch die Steuercodes C0 und C1 aus ISO / IEC 6429 ergänzt wird . Die folgenden anderen Aliase sind registriert: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . Die Codepage 28591 alias Windows-28591 wird in Windows dafür verwendet. [9] IBM nennt es Codepage 819 oder CP819 ( CCSID 819). [10] [11] [12] [13] Oracle nennt es WE8ISO8859P1 . [14]
Abdeckung
Jedes Zeichen wird als einzelner 8-Bit-Codewert codiert. Diese Codewerte können in fast jedem Datenaustauschsystem verwendet werden, um in den folgenden Sprachen zu kommunizieren (während korrekte Anführungszeichen ausgeschlossen werden können, z. B. für viele Sprachen, einschließlich Deutsch und Isländisch):
Moderne Sprachen mit vollständiger Abdeckung
- Afrikaans
- albanisch
- baskisch
- Bretonisch
- Korsisch
- Englisch
- Färöer
- galizisch
- isländisch
- irisch
- Indonesisch
- Italienisch
- Leonese
- Luxemburgisch [a]
- Malaiisch [b]
- Manx
- Norwegisch [c]
- Okzitanisch
- Portugiesisch [d]
- Rhätoromanisch
- schottisch Gälisch
- schottisch
- Südsami
- Spanisch
- Swahili
- Schwedisch
- Tagalog
- wallonisch
- Anmerkungen
- ^ Grundlegende klassische Rechtschreibung
- ^ Rumi-Skript
- ^ Bokmål und Nynorsk
- ^ Europäer und Brasilianer
Sprachen mit unvollständiger Abdeckung
ISO-8859-1 wurde häufig verwendet [ Bearbeiten ] für bestimmte Sprachen, auch wenn sie von diesen Sprachen verwendeten Zeichen fehlt. In den meisten Fällen fehlen nur wenige Buchstaben oder sie werden selten verwendet. Sie können durch Zeichen in ISO-8859-1 ersetzt werden, wobei eine typografische Annäherung verwendet wird . In der folgenden Tabelle sind solche Sprachen aufgeführt.
Sprache | Fehlende Zeichen | Typische Problemumgehung | Unterstützt durch |
---|---|---|---|
katalanisch | Ŀ , ŀ (veraltet) | L ·, l · | |
dänisch | Ǿ , ǿ (der Akzent ist optional und ǿ ist sehr selten) | Ø, ø oder øe | |
Niederländisch | IJ , ij (aber mit umstrittenem Status ); j́ in hervorgehobenen Worten wie "blíj́f" | Digraphen IJ, ij; blíjf | |
estnisch | Š , š, Ž , ž (nur in Lehnwörtern vorhanden) | Sh, sh, Zh, zh | ISO-8859-15 , Windows-1252 |
finnisch | Š , š, Ž , ž (nur in Lehnwörtern vorhanden) | Sh, sh, Zh, zh | ISO-8859-15 , Windows-1252 |
Französisch | Œ , œ und das sehr seltene Ÿ | Digraphen OE, oe; Y oder Ý | ISO-8859-15 , Windows-1252 |
Deutsche | ẞ (Hauptstadt ß, nur in allen Hauptstädten verwendet; in der offiziellen Rechtschreibung 2017 enthalten, noch optional) | Digraph SS | |
ungarisch | Ő , ő, Ű , ű | Ö, ö, Ü, ü | ISO / IEC 8859-2 , Windows-1250 |
Irisch ( traditionelle Rechtschreibung ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th | ISO-8859-14 |
kurdisch | Ş , ş | ||
Walisisch | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, Ý, ý | ISO-8859-14 |
Der Buchstabe ÿ , der auf Französisch nur sehr selten vorkommt, hauptsächlich in Städtenamen wie L'Haÿ-les-Roses und niemals am Anfang von Wörtern, ist nur in Kleinbuchstaben enthalten. Der Slot, der der Großbuchstabenform entspricht, wird mit dem Kleinbuchstaben ß aus der deutschen Sprache belegt, der zum Zeitpunkt der Erstellung des Standards keine Großbuchstaben hatte .
Anführungszeichen
Für einige Sprachen über die richtigen typographischen aufgelistet Anführungszeichen fehlen, da nur « »
, " "
und ' '
sind im Preis inbegriffen. Dieses Schema sieht auch keine orientierten (6- oder 9-förmigen) einfachen oder doppelten Anführungszeichen vor. Einige Schriftarten zeigen den Abstandsgrabakzent (0x60) und den Apostroph (0x27) als übereinstimmendes Paar ausgerichteter einfacher Anführungszeichen an, dies wird jedoch nicht als Teil des modernen Standards angesehen.
Geschichte
ISO 8859-1 basiert auf dem multinationalen Zeichensatz (MCS), der 1983 von der Digital Equipment Corporation (DEC) im beliebten VT220- Terminal verwendet wurde. Er wurde von der European Computer Manufacturers Association (ECMA) entwickelt und im März 1985 als ECMA veröffentlicht -94, [15] unter welchem Namen es manchmal noch bekannt ist. Die zweite Ausgabe von ECMA-94 (Juni 1986) [16] enthielt auch ISO 8859-2 , ISO 8859-3 und ISO 8859-4 als Teil der Spezifikation.
Der ursprüngliche Entwurf von ISO 8859-1 platzierte Französisch Œ und œ an den Codepunkten 215 (0xD7) und 247 (0xF7), wie im MCS. Der Delegierte aus Frankreich, der weder Linguist noch Typograf ist, gab jedoch fälschlicherweise an, dass es sich nicht um eigenständige französische Buchstaben handelt, sondern lediglich um Ligaturen (wie fi oder fl ), die vom Delegiertenteam des Bull Publishing Company unterstützt werden , das regelmäßig druckte damals kein Französisch mit Œ / œ in ihrem Hausstil . Ein anglophoner Delegierter aus Kanada bestand darauf, Œ / œ beizubehalten , wurde jedoch vom französischen Delegierten und dem Team von Bull abgewiesen. Diese Codepunkte wurden auf Vorschlag der deutschen Delegation bald mit × und ÷ gefüllt. Dann wurde es für die französische Sprache noch schlimmer, als erneut fälschlicherweise festgestellt wurde, dass der Buchstabe ÿ "nicht französisch" ist, was zur Abwesenheit des Kapitals Ÿ führte . Tatsächlich kommt der Buchstabe ÿ in einer Reihe französischer Eigennamen vor, und der Großbuchstabe wurde in Wörterbüchern und Enzyklopädien verwendet. [17] Diese Zeichen wurden zu ISO / IEC 8859-15: 1999 hinzugefügt . BraSCII entspricht dem ursprünglichen Entwurf.
1985 übernahm Commodore ECMA-94 für sein neues AmigaOS- Betriebssystem. [18] Der mit dem Amiga 1000 verwendete Seikosha MP-1300AI-Nadeldrucker enthielt diese Codierung. [ Zitat benötigt ]
1990 verwendete die allererste Version von Unicode die Codepunkte von ISO-8859-1 als die ersten 256 Unicode-Codepunkte.
1992 registrierte die IANA die Zeichenkarte ISO_8859-1: 1987 , die allgemein unter dem bevorzugten MIME- Namen ISO-8859-1 bekannt ist (beachten Sie den zusätzlichen Bindestrich gegenüber ISO 8859-1), eine Obermenge von ISO 8859-1 für Verwendung im Internet . Diese Zuordnung weist den nicht zugewiesenen Codewerten die Steuercodes C0 und C1 zu und liefert somit 256 Zeichen über jeden möglichen 8-Bit-Wert.
Codepage-Layout
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _EIN | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | ||||||||||||||||
1_ 16 | ||||||||||||||||
2_ 32 | SP 0020 | ! 0021 | " 0022 | # 0023 | $ 0024 | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ 48 | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ;; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ 64 | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004A | K 004B | L 004C | M 004D | N 004E | O 004F |
5_ 80 | P 0050 | Q 0051 | R 0052 | S 0053 | T 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ 96 | ` 0060 | a 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | g 0067 | h 0068 | i 0069 | j 006A | k 006B | l 006C | m 006D | n 006E | o 006F |
7_ 112 | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | x 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | |
8_ 128 | ||||||||||||||||
9_ 144 | ||||||||||||||||
A_ 160 | NBSP 00A0 | ¡ 00A1 | ¢ 00A2 | £ 00A3 | ¤ 00A4 | ¥ 00A5 | ¦ 00A6 | § 00A7 | ¨ 00A8 | © 00A9 | ª 00AA | « 00AB | ¬ 00AC | Schüchtern 00AD | ® 00AE | ¯ 00AF |
B_ 176 | ° 00B0 | ± 00B1 | ² 00B2 | ³ 00B3 | " 00B4 | µ 00B5 | ¶ 00B6 | · 00B7 | ¸ 00B8 | ¹ 00B9 | º 00BA | » 00BB | ¼ 00BC | ½ 00BD | ¾ 00BE | ¿ 00BF |
C_ 192 | À 00C0 | Á 00C1 | Â 00C2 | Ã 00C3 | Ä 00C4 | Å 00C5 | Æ 00C6 | Ç 00C7 | C 00C8 | É 00C9 | Ê 00CA | Ë 00CB | CC 00CC | C 00CD | Î 00CE | Ï 00CF |
D_ 208 | Ð 00D0 | D 00D1 | Ò 00D2 | Ó 00D3 | Ô 00D4 | Õ 00D5 | Ö 00D6 | × 00D7 | Ø 00D8 | Ù 00D9 | Ú 00DA | Û 00dB | Ü 00DC | Ý 00DD | Þ 00DE | ß 00DF |
E_ 224 | à 00E0 | á 00E1 | â 00E2 | ã 00E3 | ä 00E4 | å 00E5 | æ 00E6 | ç 00E7 | è 00E8 | é 00E9 | ê 00EA | ë 00EB | ì 00EC | í 00ED | î 00EE | ï 00EF |
F_ 240 | ð 00F0 | ñ 00F1 | ò 00F2 | ó 00F3 | ô 00F4 | õ 00F5 | ö 00F6 | ÷ 00F7 | ø 00F8 | ù 00F9 | ú 00FA | û 00FB | ü 00FC | ý 00FD | þ 00FE | FF 00FF |
Brief Nummer Interpunktion Symbol Andere Nicht definiert Undefiniert in der ersten Veröffentlichung von ECMA-94 (1985). [15] Im ursprünglichen Entwurf befand sich Œ jedoch am Codepunkt 215 (0xD7) und œ am Codepunkt 247 (0xF7).
Ähnliche Zeichensätze
ISO / IEC 8859-15
ISO / IEC 8859-15 wurde 1999 als Aktualisierung von ISO / IEC 8859-1 entwickelt. Es enthält einige Zeichen für französischen und finnischen Text und das Euro-Zeichen , die in ISO / IEC 8859-1 fehlen. Dies erforderte die Entfernung einiger selten verwendete Zeichen von ISO / IEC 8859-1, einschließlich Fraktion Symbole und Buchstaben freien diakritischen Zeichen: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, und ¾
. Ironischerweise drei der neu hinzugefügten Zeichen ( Œ
, œ
, und Ÿ
) hatte bereits präsent in Dezember ‚s 1983 Multinationale Zeichensatz (MCS), der Vorgänger zu ISO / IEC 8859-1 (1987). Da ihre ursprünglichen Codepunkte nun für andere Zwecke wiederverwendet wurden, mussten die Zeichen unter verschiedenen, weniger logischen Codepunkten wieder eingeführt werden.
ISO-IR-204, eine geringfügigere Änderung, wurde 1998 registriert und ISO-8859-1 geändert, indem das universelle Währungszeichen (¤) durch das Euro-Zeichen [19] ersetzt wurde (dieselbe Substitution durch ISO-8859-15) ).
Windows-1252
Der beliebte Windows-1252- Zeichensatz fügt alle fehlenden Zeichen von ISO / IEC 8859-15 sowie eine Reihe typografischer Symbole hinzu, indem die selten verwendeten C1-Steuerelemente im Bereich von 128 bis 159 ( hex 80 bis 9F) ersetzt werden. Es ist sehr häufig, dass Windows-1252-Text als ISO-8859-1 falsch bezeichnet wird. Ein häufiges Ergebnis war, dass alle Anführungszeichen und Apostrophe (die durch "intelligente Anführungszeichen" in Textverarbeitungssoftware erzeugt wurden) auf Nicht-Windows-Betriebssystemen durch Fragezeichen oder Kästchen ersetzt wurden, was das Lesen von Text erschwerte. Viele Webbrowser und E-Mail-Clients interpretieren ISO-8859-1-Steuercodes als Windows-1252-Zeichen, und dieses Verhalten wurde später in HTML5 standardisiert . [20]
Mac Roman
Der Apple Macintosh- Computer führte 1984 eine Zeichenkodierung namens Mac Roman ein. Sie sollte für westeuropäisches Desktop-Publishing geeignet sein . Es ist eine Obermenge von ASCII und enthält die meisten Zeichen in ISO-8859-1 und alle zusätzlichen Zeichen von Windows-1252, jedoch in einer völlig anderen Anordnung. Die wenigen druckbaren Zeichen in ISO 8859-1, jedoch nicht in diesem Satz, verursachen häufig Probleme beim Bearbeiten von Text auf Websites mit älteren Macintosh-Browsern, einschließlich der letzten Version von Internet Explorer für Mac .
Andere
DOS hatte Codepage 850 , die alle druckbaren Zeichen enthielt, die ISO-8859-1 hatte (wenn auch in einer völlig anderen Anordnung), sowie die am häufigsten verwendeten grafischen Zeichen von Codepage 437 .
Zwischen 1989 [21] und 2015 verwendete Hewlett-Packard für viele seiner Taschenrechner eine weitere Obermenge von ISO-8859-1. Dieser proprietäre Zeichensatz wurde manchmal auch einfach als "ECMA-94" bezeichnet. [21]
Siehe auch
- Lateinische Schrift in Unicode
- Unicode
- Universeller Zeichensatz
- UTF-8
- Windows-Codepages
- ISO / IEC JTC 1 / SC 2
Verweise
- ^ "Codierungsstandard" . encoding.spec.whatwg.org .
- ^ "HTML Standard" . html.spec.whatwg.org .
- ^ "Nutzungsübersicht der nach Rangfolge aufgeschlüsselten Zeichenkodierungen" . w3techs.com . Abgerufen 2021-05-15 .
- ^ "Historische Trends bei der Verwendung von Zeichenkodierungen, Mai 2021" . Abgerufen 2021-05-15 .
- ^ "Quelle der Zeichenkodierungsstatistik?" . w3techs.com .
- ^ "Verteilung von Zeichenkodierungen auf Websites, die .de verwenden" . w3techs.com . Abgerufen 2021-05-15 .
- ^ "Verteilung von Zeichenkodierungen auf Websites, die Deutsch verwenden" . w3techs.com . Abgerufen 2021-01-24 .
- ^ "Verteilung von Zeichenkodierungen auf Websites, die Bretonisch verwenden" . w3techs.com . Abgerufen am 08.12.2020 .
- ^ "Codepage-IDs" . Microsoft Corporation . Abgerufen am 19.12.2010 .
- ^ "Codepage 819 Informationsdokument" . Archiviert vom Original am 16.01.2017.
- ^ "CCSID 819 Informationsdokument" . Archiviert vom Original am 27.03.2016.
- ^ Codepage CPGID 00819 (pdf) (PDF) , IBM
- ^ Codepage CPGID 00819 (txt) , IBM
- ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Law, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. "Anhang A: Gebietsschemadaten". Oracle9i-Handbuch zur Unterstützung der Datenbank-Globalisierung (PDF) (Release 2 (9.2) ed.). Oracle Corporation . Oracle A96529-01. Archiviert (PDF) vom Original am 14.02.2017 . Abgerufen am 14.02.2017 .
- ^ a b Standard ECMA-94: 8-Bit-Einzelbyte-codierter Grafikzeichensatz (PDF) (1 Ausgabe). Europäischer Verband der Computerhersteller (ECMA). März 1985 [1984-12-14]. Archiviert (PDF) vom Original am 02.12.2016 . Abgerufen am 01.12.2016 .
[…] Seit 1982 wurde die Dringlichkeit eines 8-Bit-Einzelbyte-codierten Zeichensatzes sowohl in ECMA als auch in ANSI / X3L2 erkannt und zahlreiche Arbeitspapiere zwischen den beiden Gruppen ausgetauscht. Im Februar 1984 legte ECMA TC1 ISO / TC97 / SC2 einen Vorschlag für einen solchen codierten Zeichensatz vor. Auf seiner Sitzung im April 1984 beschloss SC, TC97 einen Vorschlag für einen neuen Arbeitsgegenstand zu diesem Thema vorzulegen. Technische Diskussionen während und nach diesem Treffen veranlassten TC1, das von X3L2 vorgeschlagene Kodierungsschema zu übernehmen. Teil 1 des Entwurfs des internationalen Standards DTS 8859 basiert auf diesem gemeinsamen ANSI / ECMA-Vorschlag. […] Von der Generalversammlung vom 13. bis 14. Dezember 1984 als ECMA-Standard verabschiedet. […]
- ^ "Zweite Ausgabe von ECMA-94 (Juni 1986)" (PDF) .
- ^ Jacques, André (1996). "ISO Latin-1, Norm der Kodierung der Caractères européens? Trois caractères français en sont abwesend!" (PDF) . Cahiers GUTenberg (25): 65–77.
- ^ Malyshev, Michael (10.01.2003). "Registrierung eines neuen Zeichensatzes [Amiga-1251]" . ATO-RU (Amiga Translation Organization - Russische Abteilung). Archiviert vom Original am 05.12.2016 . Abgerufen am 05.12.2016 .
- ^ ITS Information Technology Standardization (1998-09-16). ISO-IR 204: Ergänzungssatz für Latin-1-Alternative mit EURO-ZEICHEN (PDF) . ITSCJ / IPSJ .
- ^ van Kesteren, Anne (27. Januar 2015). "5.2 Namen und Bezeichnungen" . Kodierungsstandard . WAS . Archiviert vom Original am 4. Februar 2015 . Abgerufen am 4. Februar 2015 .
- ^ a b HP 82240B Infrarotdrucker (1 Ausgabe). Corvallis, OR, USA: Hewlett-Packard . August 1989. HP Bestellnummer 82240-90014 . Abgerufen am 01.08.2016 .
Externe Links
- ISO / IEC 8859-1: 1998
- ISO / IEC FDIS 8859-1: 1998 - 8-Bit- Einzelbyte -codierte grafische Zeichensätze, Teil 1: Lateinisches Alphabet Nr. 1 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. April 1998)
- Standard ECMA-94: 8-Bit-Einzelbyte-codierte grafische Zeichensätze - Lateinische Alphabete Nr. 1 bis Nr. 4, 2. Auflage (Juni 1986)
- ISO-IR 100 rechter Teil des lateinischen Alphabets Nr. 1 (1. Februar 1986)
- Die Briefdatenbank
- Czyborra, Roman (01.12.1998). "Die ISO 8859 Alphabetsuppe" . Archiviert vom Original am 01.12.2016 . Abgerufen am 01.12.2016 . [1] [2]