Ohne Unicode

Inhalt

Mehrsprachige Datenverarbeitung ohne Unicode

Buchstabensuppe und Zeichensalat (Kodierungen und Codepages):

Traditionell können Computer bis zu 256 Zeichen (Buchstaben, Zahlen, Interpunktionszeichen und einige Computer-interne Steuerzeichen) unterscheiden. Der Grund dafür ist, dass für die Speicherung der Zeichen je ein Byte reserviert wird.

Diese Zahl reicht nicht aus, um z.B alle für die westeuropäischen und die osteuropäischen Sprachen benötigten Zeichen unterzubringen (geschweige denn die Zeichen aller Sprachen), deshalb wurden unterschiedliche Kodierungen (Codepages) geschaffen, die es ermöglichen, mit verschiedenen Computern in verschiedenen Sprachen zu schreiben. (vgl. zu dieser Problematik z.B. die Seiten bei www.slovo.info von Christoph Singer).

Für verschiedene Computersysteme und in verschiedenen Ländern entstanden mit der Zeit viele verschiedenen Codepages, die alle nicht miteinander kompatibel sind (so gibt es allein mindestens zehn verschiedene kyrillische Anordnungen), denn wenn versucht wird, einen Text mit einer anderen Codepage anzuzeigen, als der, mit der er geschrieben wurde, so werden die Zeichen, bei denen die Zuordnungen zu den Codenummern abweichen, falsch dargestellt. Ausführlich wird dieses Problem in der WordFAQ von René Probst behandelt und dokumentiert.

Da es bei der Beschränkung auf 256 Zeichen nicht möglich ist, mehrere Sprachen (die zu verschiedenen Codepages gehören, z.B. westeuropäisch, mittel/osteuropäisch, kyrillisch) gleichzeitig zu verarbeiten (eingeben, speichern, anzeigen, ausdrucken), wurden verschiedene Notbehelfe ersonnen.

Lösungsansätze:

1. Die Fontstrategie

Es werden verschiedene Schriftarten (Fonts) benutzt, bei denen z.B. das lateinische L als kyrillisches Л angezeigt wird. Ein großer Vorteil dieser Methode ist, dass der Zeichenvorrat unbegrenzt erweitert und verändert werden kann, indem einfach immer weitere Schriftarten eingesetzt werden; die Anwendungssoftware muss lediglich in der Lage sein, mehrere Schriftarten nebeneinander anzuzeigen. Der Nachteil ist, dass die verschiedenen Zeichen immer wieder gleich kodiert sind und eben nur unterschiedlich aussehen. Wenn die Schriftart geändert wird oder auf einem Computer nicht vorhanden ist, so wird etwa kyrillischer Text entstellt lateinisch angezeigt.

Diese Methode kam vor allem bei Macintosh®-Computern zum Einsatz und hat sich z.B. in der Slavistik über viele Jahre bewährt. Sie ist auch heute noch teilweise in der Slavistik verbreitet; vgl. die Schriftartenangebote bei maccampus®, wo es dazu heißt: "THE standard in scientific publishing in Europe". Tatsächlich ist diese Methode aber veraltet.

Ein Hilfsmittel zur Konversion so erzeugter Texte in Unicode mit MS Word® wird hier in Form des Transliterationsmakros angeboten.

2. Die Maskierungsstrategie

Für Zeichen, die in der Codepage des Betriebssystems nicht enthalten sind, werden längere Zeichenketten gespeichert, die in dieser Anordnung sonst nie vorkommen. Das Programm, das so erzeugten Text anzeigt, erkennt diese Codes (genauer: diese spezifischen Abfolgen von Codes) und ersetzt sie durch die entsprechenden Sonderzeichen. Der Nachteil ist, dass die so gespeicherten Texte nur mit Software angezeigt werden können, die diese Strategie beherrschen. Weitere Nachteile sind, dass so kodierter Text wesentlich mehr Speicherplatz benötigt und dass der Zeichenvorrat nicht leicht erweitert werden kann.

Diese Methode kam z.B. bei WordPerfect 5.1® zum Einsatz. Schon zu Anfang der 90er Jahre war es damit problemlos möglich, unter MS DOS® gemischtsprachige Texte zu bearbeiten.

Außerdem wird diese Methode heute intensiv im Internet verwendet, denn auch hier werden die Daten Byte-weise (oder sogar sieben-Bit-weise) transportiert. Hinter einem in einer E-Mail oder auf einer Webseite angezeigten ü verbirgt sich im Quelltext meist etwas wie =FC, ü, ü (für u-Umlaut) oder ü. (vgl. hierzu: Anzeige von Unicode im Internet)

3. Sonstige Strategien

Anstelle von Buchstaben können kleine Computergrafiken verwendet und nebeneinander gesetzt werden. Diese Methode wird bisweilen verwendet, wenn überhaupt keine fremdsprachlichen Zeichen zur Verfügung stehen. Der Vorteil der Methode ist, dass sie kaum technische Probleme aufwerfen wird, und dass keine Beschränkungen bezüglich des Aussehens der Schriftart usw. bestehen. Die Nachteile sind allerdings erheblich, denn mit solcherart erzeugtem Text lässt sich datentechnisch nichts anfangen, z.B. kann nicht automatisch nach Textbestanteilen gesucht werden usw. Denn es handelt sich ja um Grafik, nicht eigentlich um Text. Das schlagendste Gegenargument, nämlich der um ein vielfaches höhere Speicherplatzbedarf und die verlangsamte Arbeitsgeschwindigkeit hingegen, verblasst indes angesichts immer leistungsfähigerer Computer, immer größerer Festplatten und immer schnellerer Internetzugänge. Eine Webseite, die nach diesem Prinzip aufgebaut ist, ist hier zu besichtigen.

Atari® ging mit Programm Signum® in den achtziger Jahren einen Sonderweg: Mit einfachen Hilfsmitteln konnte man hier selbst Schriftarten erzeugen und damit schreiben. Dies wurde in der Slavistik teilweise eingesetzt, wo etwa altkirchenslavische Texte graphematisch genau wiedergegeben werden sollten. Die Nachteile dieser Methode sind etwa dieselben wie bei der rein grafischen: Die Texte sind so gut wie nicht portierbar.

Die Lösung der Zukunft:

  • Unicode: Die Überwindung der Beschränkung auf ein Byte pro Zeichen