วิกิภาษาไทย

ISO / IEC 8859-1


ISO / IEC 8859-1: 1998 , Informationstechnik - 8-Bit - Single - Byte - codierte Grafik Zeichensätze - Teil 1: lateinische Alphabet No. 1 ist Teil der ISO / IEC 8859 Reihe von ASCII - Standard basierende Zeichenkodierungen , zuerst Die Ausgabe wurde 1987 veröffentlicht. ISO 8859-1 kodiert das, was als "lateinisches Alphabet Nr. 1" bezeichnet wird und aus 191 Zeichen aus der lateinischen Schrift besteht . Dieses Zeichencodierungsschema wird in ganz Amerika , Westeuropa , Ozeanien und weiten Teilen Afrikas verwendet. Es ist die Basis für einige beliebte 8-Bit-Zeichensätze und die ersten beiden Zeichenblöcke in Unicode .

ISO / IEC 8859-1: 1998
Latin-1-infobox.svg
ISO 8859-1 Codepage-Layout
MIME / IANAISO-8859-1
Alias ​​(es)iso-ir-100, csISOLatin1, latin1, 11, IBM819, CP819
Sprachen)Englisch , verschiedene andere
StandardISO / IEC 8859
EinstufungErweitertes ASCII , ISO 8859
ErweitertUS-ASCII
Beyogen aufDEC MCS
gefolgt von
  • ISO / IEC 8859-15
  • Windows-1252 ( Webstandards )
Andere verwandte Codierung (en)BraSCII
  • v
  • t
  • e

ISO-8859-1 war (zumindest gemäß dem Standard) die Standardcodierung von Dokumenten, die über HTTP mit einem MIME-Typ geliefert wurden, der mit "text /" beginnt ( HTML5 hat dies in Windows-1252 geändert ). [1] [2] Ab Mai 2021 [aktualisieren]wurden 1,3% aller (aber nur 0,9% der Top-1000 [3] ) Web - Sites verwenden ISO 8859-1 . [4] [5] Es ist die weltweit am häufigsten deklarierte Einzelbyte-Zeichencodierung im Web. Da Webbrowser sie jedoch als Obermenge Windows-1252 interpretieren, können die Dokumente Zeichen aus diesem Satz enthalten.

Je nach Land kann die Nutzung viel höher sein als der globale Durchschnitt, z. B. für Deutschland mit 5,6% (und einschließlich Windows-1252 mit 6,3%), [6] [7] oder sogar höher für Minderheitensprachen. [8]

ISO-8859-1 war die Standardcodierung der Werte bestimmter beschreibender HTTP-Header und definierte das in HTML  3.2-Dokumenten zulässige Zeichenrepertoire und wird von vielen anderen Standards spezifiziert. Diese und ähnliche Sätze werden oft als die Codierung von 8-Bit - Text auf angenommenen Unix und Microsoft Windows , wenn es keine Bytereihenfolgemarkierung (BOM); Dies wird nur allmählich auf UTF-8 geändert.

ISO-8859-1 ist der von der IANA bevorzugte Name für diese Norm, wenn sie durch die Steuercodes C0 und C1 aus ISO / IEC 6429 ergänzt wird . Die folgenden anderen Aliase sind registriert: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . Die Codepage 28591 alias Windows-28591 wird in Windows dafür verwendet. [9] IBM nennt es Codepage 819 oder CP819 ( CCSID 819). [10] [11] [12] [13] Oracle nennt es WE8ISO8859P1 . [14]

Abdeckung

Jedes Zeichen wird als einzelner 8-Bit-Codewert codiert. Diese Codewerte können in fast jedem Datenaustauschsystem verwendet werden, um in den folgenden Sprachen zu kommunizieren (während korrekte Anführungszeichen ausgeschlossen werden können, z. B. für viele Sprachen, einschließlich Deutsch und Isländisch):

Moderne Sprachen mit vollständiger Abdeckung

  • Afrikaans
  • albanisch
  • baskisch
  • Bretonisch
  • Korsisch
  • Englisch
  • Färöer
  • galizisch
  • isländisch
  • irisch
  • Indonesisch
  • Italienisch
  • Leonese
  • Luxemburgisch [a]
  • Malaiisch [b]
  • Manx
  • Norwegisch [c]
  • Okzitanisch
  • Portugiesisch [d]
  • Rhätoromanisch
  • schottisch Gälisch
  • schottisch
  • Südsami
  • Spanisch
  • Swahili
  • Schwedisch
  • Tagalog
  • wallonisch
Anmerkungen
  1. ^ Grundlegende klassische Rechtschreibung
  2. ^ Rumi-Skript
  3. ^ Bokmål und Nynorsk
  4. ^ Europäer und Brasilianer

Sprachen mit unvollständiger Abdeckung

ISO-8859-1 wurde häufig verwendet [ Bearbeiten ] für bestimmte Sprachen, auch wenn sie von diesen Sprachen verwendeten Zeichen fehlt. In den meisten Fällen fehlen nur wenige Buchstaben oder sie werden selten verwendet. Sie können durch Zeichen in ISO-8859-1 ersetzt werden, wobei eine typografische Annäherung verwendet wird . In der folgenden Tabelle sind solche Sprachen aufgeführt.

SpracheFehlende ZeichenTypische ProblemumgehungUnterstützt durch
katalanischĿ , ŀ (veraltet)L ·, l ·
dänischǾ , ǿ (der Akzent ist optional und ǿ ist sehr selten)Ø, ø oder øe
NiederländischIJ , ij (aber mit umstrittenem Status ); j́ in hervorgehobenen Worten wie "blíj́f"Digraphen IJ, ij; blíjf
estnischŠ , š, Ž , ž (nur in Lehnwörtern vorhanden)Sh, sh, Zh, zhISO-8859-15 , Windows-1252
finnischŠ , š, Ž , ž (nur in Lehnwörtern vorhanden)Sh, sh, Zh, zhISO-8859-15 , Windows-1252
FranzösischŒ , œ und das sehr seltene ŸDigraphen OE, oe; Y oder ÝISO-8859-15 , Windows-1252
Deutscheẞ (Hauptstadt ß, nur in allen Hauptstädten verwendet; in der offiziellen Rechtschreibung 2017 enthalten, noch optional)Digraph SS
ungarischŐ , ő, Ű , űÖ, ö, Ü, üISO / IEC 8859-2 , Windows-1250
Irisch ( traditionelle Rechtschreibung )Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫBh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, thISO-8859-14
kurdisch Ş , ş
WalisischẀ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, ŸW, w, Y, y, Ý, ýISO-8859-14

Der Buchstabe ÿ , der auf Französisch nur sehr selten vorkommt, hauptsächlich in Städtenamen wie L'Haÿ-les-Roses und niemals am Anfang von Wörtern, ist nur in Kleinbuchstaben enthalten. Der Slot, der der Großbuchstabenform entspricht, wird mit dem Kleinbuchstaben ß aus der deutschen Sprache belegt, der zum Zeitpunkt der Erstellung des Standards keine Großbuchstaben hatte .

Anführungszeichen

Für einige Sprachen über die richtigen typographischen aufgelistet Anführungszeichen fehlen, da nur « », " "und ' 'sind im Preis inbegriffen. Dieses Schema sieht auch keine orientierten (6- oder 9-förmigen) einfachen oder doppelten Anführungszeichen vor. Einige Schriftarten zeigen den Abstandsgrabakzent (0x60) und den Apostroph (0x27) als übereinstimmendes Paar ausgerichteter einfacher Anführungszeichen an, dies wird jedoch nicht als Teil des modernen Standards angesehen.

Geschichte

ISO 8859-1 basiert auf dem multinationalen Zeichensatz (MCS), der 1983 von der Digital Equipment Corporation (DEC) im beliebten VT220- Terminal verwendet wurde. Er wurde von der European Computer Manufacturers Association (ECMA) entwickelt und im März 1985 als ECMA veröffentlicht -94, [15] unter welchem ​​Namen es manchmal noch bekannt ist. Die zweite Ausgabe von ECMA-94 (Juni 1986) [16] enthielt auch ISO 8859-2 , ISO 8859-3 und ISO 8859-4 als Teil der Spezifikation.

Der ursprüngliche Entwurf von ISO 8859-1 platzierte Französisch Œ und œ an den Codepunkten 215 (0xD7) und 247 (0xF7), wie im MCS. Der Delegierte aus Frankreich, der weder Linguist noch Typograf ist, gab jedoch fälschlicherweise an, dass es sich nicht um eigenständige französische Buchstaben handelt, sondern lediglich um Ligaturen (wie fi oder fl ), die vom Delegiertenteam des Bull Publishing Company unterstützt werden , das regelmäßig druckte damals kein Französisch mit Œ / œ in ihrem Hausstil . Ein anglophoner Delegierter aus Kanada bestand darauf, Œ / œ beizubehalten , wurde jedoch vom französischen Delegierten und dem Team von Bull abgewiesen. Diese Codepunkte wurden auf Vorschlag der deutschen Delegation bald mit × und ÷ gefüllt. Dann wurde es für die französische Sprache noch schlimmer, als erneut fälschlicherweise festgestellt wurde, dass der Buchstabe ÿ "nicht französisch" ist, was zur Abwesenheit des Kapitals Ÿ führte . Tatsächlich kommt der Buchstabe ÿ in einer Reihe französischer Eigennamen vor, und der Großbuchstabe wurde in Wörterbüchern und Enzyklopädien verwendet. [17] Diese Zeichen wurden zu ISO / IEC 8859-15: 1999 hinzugefügt . BraSCII entspricht dem ursprünglichen Entwurf.

1985 übernahm Commodore ECMA-94 für sein neues AmigaOS- Betriebssystem. [18] Der mit dem Amiga 1000 verwendete Seikosha MP-1300AI-Nadeldrucker enthielt diese Codierung. [ Zitat benötigt ]

1990 verwendete die allererste Version von Unicode die Codepunkte von ISO-8859-1 als die ersten 256 Unicode-Codepunkte.

1992 registrierte die IANA die Zeichenkarte ISO_8859-1: 1987 , die allgemein unter dem bevorzugten MIME- Namen ISO-8859-1 bekannt ist (beachten Sie den zusätzlichen Bindestrich gegenüber ISO 8859-1), eine Obermenge von ISO 8859-1 für Verwendung im Internet . Diese Zuordnung weist den nicht zugewiesenen Codewerten die Steuercodes C0 und C1 zu und liefert somit 256 Zeichen über jeden möglichen 8-Bit-Wert.

Codepage-Layout

ISO / IEC 8859-1
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _EIN _B _C _D _E _F
0_
0
1_
16
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
a
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
i
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
128
9_
144
A_
160
NBSP
00A0
¡
00A1
¢
00A2
£
00A3
¤
00A4
¥
00A5
¦
00A6
§
00A7
¨
00A8
©
00A9
ª
00AA
«
00AB
¬
00AC
Schüchtern
00AD
®
00AE
¯
00AF
B_
176
°
00B0
±
00B1
²
00B2
³
00B3
"
00B4
µ
00B5
¶
00B6
·
00B7
¸
00B8
¹
00B9
º
00BA
»
00BB
¼
00BC
½
00BD
¾
00BE
¿
00BF
C_
192
À
00C0
Á
00C1
Â
00C2
Ã
00C3
Ä
00C4
Å
00C5
Æ
00C6
Ç
00C7
C
00C8
É
00C9
Ê
00CA
Ë
00CB
CC
00CC
C
00CD
Î
00CE
Ï
00CF
D_
208
Ð
00D0
D
00D1
Ò
00D2
Ó
00D3
Ô
00D4
Õ
00D5
Ö
00D6
×
00D7
Ø
00D8
Ù
00D9
Ú
00DA
Û
00dB
Ü
00DC
Ý
00DD
Þ
00DE
ß
00DF
E_
224
à
00E0
á
00E1
â
00E2
ã
00E3
ä
00E4
å
00E5
æ
00E6
ç
00E7
è
00E8
é
00E9
ê
00EA
ë
00EB
ì
00EC
í
00ED
î
00EE
ï
00EF
F_
240
ð
00F0
ñ
00F1
ò
00F2
ó
00F3
ô
00F4
õ
00F5
ö
00F6
÷
00F7
ø
00F8
ù
00F9
ú
00FA
û
00FB
ü
00FC
ý
00FD
þ
00FE
FF
00FF

  Brief    Nummer    Interpunktion    Symbol    Andere    Nicht definiert  Undefiniert in der ersten Veröffentlichung von ECMA-94 (1985). [15] Im ursprünglichen Entwurf befand sich Œ jedoch am Codepunkt 215 (0xD7) und œ am Codepunkt 247 (0xF7).

Ähnliche Zeichensätze

ISO / IEC 8859-15

ISO / IEC 8859-15 wurde 1999 als Aktualisierung von ISO / IEC 8859-1 entwickelt. Es enthält einige Zeichen für französischen und finnischen Text und das Euro-Zeichen , die in ISO / IEC 8859-1 fehlen. Dies erforderte die Entfernung einiger selten verwendete Zeichen von ISO / IEC 8859-1, einschließlich Fraktion Symbole und Buchstaben freien diakritischen Zeichen: ¤, ¦, ¨, ´, ¸, ¼, ½, und ¾. Ironischerweise drei der neu hinzugefügten Zeichen ( Œ, œ, und Ÿ) hatte bereits präsent in Dezember ‚s 1983 Multinationale Zeichensatz (MCS), der Vorgänger zu ISO / IEC 8859-1 (1987). Da ihre ursprünglichen Codepunkte nun für andere Zwecke wiederverwendet wurden, mussten die Zeichen unter verschiedenen, weniger logischen Codepunkten wieder eingeführt werden.

ISO-IR-204, eine geringfügigere Änderung, wurde 1998 registriert und ISO-8859-1 geändert, indem das universelle Währungszeichen (¤) durch das Euro-Zeichen [19] ersetzt wurde (dieselbe Substitution durch ISO-8859-15) ).

Windows-1252

Der beliebte Windows-1252- Zeichensatz fügt alle fehlenden Zeichen von ISO / IEC 8859-15 sowie eine Reihe typografischer Symbole hinzu, indem die selten verwendeten C1-Steuerelemente im Bereich von 128 bis 159 ( hex 80 bis 9F) ersetzt werden. Es ist sehr häufig, dass Windows-1252-Text als ISO-8859-1 falsch bezeichnet wird. Ein häufiges Ergebnis war, dass alle Anführungszeichen und Apostrophe (die durch "intelligente Anführungszeichen" in Textverarbeitungssoftware erzeugt wurden) auf Nicht-Windows-Betriebssystemen durch Fragezeichen oder Kästchen ersetzt wurden, was das Lesen von Text erschwerte. Viele Webbrowser und E-Mail-Clients interpretieren ISO-8859-1-Steuercodes als Windows-1252-Zeichen, und dieses Verhalten wurde später in HTML5 standardisiert . [20]

Mac Roman

Der Apple Macintosh- Computer führte 1984 eine Zeichenkodierung namens Mac Roman ein. Sie sollte für westeuropäisches Desktop-Publishing geeignet sein . Es ist eine Obermenge von ASCII und enthält die meisten Zeichen in ISO-8859-1 und alle zusätzlichen Zeichen von Windows-1252, jedoch in einer völlig anderen Anordnung. Die wenigen druckbaren Zeichen in ISO 8859-1, jedoch nicht in diesem Satz, verursachen häufig Probleme beim Bearbeiten von Text auf Websites mit älteren Macintosh-Browsern, einschließlich der letzten Version von Internet Explorer für Mac .

Andere

DOS hatte Codepage 850 , die alle druckbaren Zeichen enthielt, die ISO-8859-1 hatte (wenn auch in einer völlig anderen Anordnung), sowie die am häufigsten verwendeten grafischen Zeichen von Codepage 437 .

Zwischen 1989 [21] und 2015 verwendete Hewlett-Packard für viele seiner Taschenrechner eine weitere Obermenge von ISO-8859-1. Dieser proprietäre Zeichensatz wurde manchmal auch einfach als "ECMA-94" bezeichnet. [21]

Siehe auch

  • Lateinische Schrift in Unicode
  • Unicode
  • Universeller Zeichensatz
  • UTF-8
  • Windows-Codepages
  • ISO / IEC JTC 1 / SC 2

Verweise

  1. ^ "Codierungsstandard" . encoding.spec.whatwg.org .
  2. ^ "HTML Standard" . html.spec.whatwg.org .
  3. ^ "Nutzungsübersicht der nach Rangfolge aufgeschlüsselten Zeichenkodierungen" . w3techs.com . Abgerufen 2021-05-15 .
  4. ^ "Historische Trends bei der Verwendung von Zeichenkodierungen, Mai 2021" . Abgerufen 2021-05-15 .
  5. ^ "Quelle der Zeichenkodierungsstatistik?" . w3techs.com .
  6. ^ "Verteilung von Zeichenkodierungen auf Websites, die .de verwenden" . w3techs.com . Abgerufen 2021-05-15 .
  7. ^ "Verteilung von Zeichenkodierungen auf Websites, die Deutsch verwenden" . w3techs.com . Abgerufen 2021-01-24 .
  8. ^ "Verteilung von Zeichenkodierungen auf Websites, die Bretonisch verwenden" . w3techs.com . Abgerufen am 08.12.2020 .
  9. ^ "Codepage-IDs" . Microsoft Corporation . Abgerufen am 19.12.2010 .
  10. ^ "Codepage 819 Informationsdokument" . Archiviert vom Original am 16.01.2017.
  11. ^ "CCSID 819 Informationsdokument" . Archiviert vom Original am 27.03.2016.
  12. ^ Codepage CPGID 00819 (pdf) (PDF) , IBM
  13. ^ Codepage CPGID 00819 (txt) , IBM
  14. ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Law, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. "Anhang A: Gebietsschemadaten". Oracle9i-Handbuch zur Unterstützung der Datenbank-Globalisierung (PDF) (Release 2 (9.2) ed.). Oracle Corporation . Oracle A96529-01. Archiviert (PDF) vom Original am 14.02.2017 . Abgerufen am 14.02.2017 .
  15. ^ a b Standard ECMA-94: 8-Bit-Einzelbyte-codierter Grafikzeichensatz (PDF) (1 Ausgabe). Europäischer Verband der Computerhersteller (ECMA). März 1985 [1984-12-14]. Archiviert (PDF) vom Original am 02.12.2016 . Abgerufen am 01.12.2016 . […] Seit 1982 wurde die Dringlichkeit eines 8-Bit-Einzelbyte-codierten Zeichensatzes sowohl in ECMA als auch in ANSI / X3L2 erkannt und zahlreiche Arbeitspapiere zwischen den beiden Gruppen ausgetauscht. Im Februar 1984 legte ECMA TC1 ISO / TC97 / SC2 einen Vorschlag für einen solchen codierten Zeichensatz vor. Auf seiner Sitzung im April 1984 beschloss SC, TC97 einen Vorschlag für einen neuen Arbeitsgegenstand zu diesem Thema vorzulegen. Technische Diskussionen während und nach diesem Treffen veranlassten TC1, das von X3L2 vorgeschlagene Kodierungsschema zu übernehmen. Teil 1 des Entwurfs des internationalen Standards DTS 8859 basiert auf diesem gemeinsamen ANSI / ECMA-Vorschlag. […] Von der Generalversammlung vom 13. bis 14. Dezember 1984 als ECMA-Standard verabschiedet. […]
  16. ^ "Zweite Ausgabe von ECMA-94 (Juni 1986)" (PDF) .
  17. ^ Jacques, André (1996). "ISO Latin-1, Norm der Kodierung der Caractères européens? Trois caractères français en sont abwesend!" (PDF) . Cahiers GUTenberg (25): 65–77.
  18. ^ Malyshev, Michael (10.01.2003). "Registrierung eines neuen Zeichensatzes [Amiga-1251]" . ATO-RU (Amiga Translation Organization - Russische Abteilung). Archiviert vom Original am 05.12.2016 . Abgerufen am 05.12.2016 .
  19. ^ ITS Information Technology Standardization (1998-09-16). ISO-IR 204: Ergänzungssatz für Latin-1-Alternative mit EURO-ZEICHEN (PDF) . ITSCJ / IPSJ .
  20. ^ van Kesteren, Anne (27. Januar 2015). "5.2 Namen und Bezeichnungen" . Kodierungsstandard . WAS . Archiviert vom Original am 4. Februar 2015 . Abgerufen am 4. Februar 2015 .
  21. ^ a b HP 82240B Infrarotdrucker (1 Ausgabe). Corvallis, OR, USA: Hewlett-Packard . August 1989. HP Bestellnummer 82240-90014 . Abgerufen am 01.08.2016 .

Externe Links

  • ISO / IEC 8859-1: 1998
  • ISO / IEC FDIS 8859-1: 1998  - 8-Bit- Einzelbyte -codierte grafische Zeichensätze, Teil 1: Lateinisches Alphabet Nr. 1 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. April 1998)
  • Standard ECMA-94: 8-Bit-Einzelbyte-codierte grafische Zeichensätze - Lateinische Alphabete Nr. 1 bis Nr. 4, 2. Auflage (Juni 1986)
  • ISO-IR 100 rechter Teil des lateinischen Alphabets Nr. 1 (1. Februar 1986)
  • Die Briefdatenbank
  • Czyborra, Roman (01.12.1998). "Die ISO 8859 Alphabetsuppe" . Archiviert vom Original am 01.12.2016 . Abgerufen am 01.12.2016 . [1] [2]

This page is based on a Wikipedia article Text is available under the CC BY-SA 4.0 license; additional terms may apply. Images, videos and audio are available under their respective licenses.


  • Terms of Use
  • Privacy Policy