Das Verstehen und Reparieren von verstümmeltem Text (Mojibake) ist trotz Unicode eine permanente Daueraufgabe in IT-Projekten. Verstümmelter Text ist das Ergebnis der Dekodierung eines Textes mit einer nicht vorgesehenen Zeichenkodierung.
Beispiel: „Die UTF-8 Selbsthilfegruppe trifft sich heute Abend im grünen Saal.“
Ziel
Dieser Vortrag richtet sich an alle, die regelmäßig mit Konvertierungen von Charactersets beschäftigt sind und die einen tieferen Einblick in das Encoding haben möchten. Dieser Vortrag zeigt die typischen Probleme anhand der Programmiersprache Python.
Überblick
In offenen IT-Umgebungen ist der Austausch von Daten zwischen Dateien, REST-Schnittstellen, Datenbanken und anderen externen Systemen eine permanente Herausforderung. Am Zielort eines Datentransfers kann es dabei immer zu Problemen beim Wechseln des Zeichensatzes kommen. Wir zeigen, wie diese Probleme analysiert und behoben werden können.
Die Themen dieses Vortrages beinhalten:
- Unterschied zwischen Text und Bytes
- Unicode vs. UTF-8
- Dekodierung und Kodierung von Dateien, Datenbank-Ergebnismengen, REST-APIs-Aufrufe
- das Modul unicodedata
- Umgang mit ISO-Zeichensätzen in der Unicode-Welt
Fazit
Kommt zu den IT-Tagen, besucht den Vortrag und löst all eure Zeichenprobleme!
Seminarempfehlungen
PYTHON PROGRAMMIERUNG GRUNDLAGEN P-PYTH-01
Mehr erfahrenPYTHON PROGRAMMIERUNG FÜR FORTGESCHRITTENE P-PYTH-02
Mehr erfahren