Glossar

Dieses Dokument ist die Anleitung für WordXML. WordXML ist Software zur Konvertierung von Microsoft Word Dokumenten nach XML, (X)HTML und TEXT. Die Ausgabe von WordXML kann jeder beliebigen DTD und jedem beliebigen Schema angepasst werden. Die Ergebnisse sind sowohl in der Struktur als auch im Layout umfassend konfigurierbar und lassen sich so leicht an jede Art von Vorgaben anpassen. Das Dokument beinhaltet umfassende Informationen zu Anwendung und Konfiguration. Diese Hilfe wurde selbst mit WordXML erstellt.


Glossar

CSS

Mit Hilfe von Cascading StyleSheets (CSS) können sogenannte Styleklassen definiert werden. Styleklassen enthalten Attribute wie zum Beispiel Fontarten und –größen, Ausrichtungen, Textstile u. ä.. Die CSS-Datei kann von einer oder mehreren HTML-Dateien referenziert werden. Den darin befindlichen HTML-Tags können Styleklassen zugewiesen werden. Somit läßt sich das Erscheinungsbild einzelner Tags oder gesamter HTML-Dateien steuern.

DTD

Die Document Type Definition (DTD) ist eine Grammatik zur formalen Beschreibung von XML-Dokumenten. Sie spezifiziert die Menge der Tags, die in einem XML-Dokument erlaubt sind und wie diese Tags zueinander in Beziehung stehen. Ein XML-Dokument ist wohlgeformt, wenn die Verschachtelung der Tags einen korrekten Klammerbegriff mit einer alles umschließenden Klammer bilden. Entspricht das Dokument zusätzlich einer DTD, so nennt man es gültig (valid). Weitere Informationen finden sich auf der Internetseite des World Wide Web Consortium W3C.

Encoding

Die Kodierung der Zeichen einer Datei. Bei der Ausgabe beispielsweise als HTML-Datei bestimmt dies den darunterliegenden Zeichensatz, ebenso bei TEXT. Bei TEXT kann die Architektur der Zielmaschine entscheidend für die korrekte Darstellung sein.

HTML

HTML steht für Hypertext Markup Language. Bei HTML handelt es sich um eine Auszeichnungssprache, mit deren Hilfe die Struktur eines Dokuments im Dokument selbst durch sogenannte Tags beschrieben werden kann. Der HTML-Standard spezifiziert die Menge aller HTML-Tags. Diese Menge ist fest.

Internetseiten sind in der Hauptsache mit HTML erstellt. Die Tags werden von Internetbrowsern ihrer Bedeutung entsprechend interpretiert und der betroffene Dokumententeil entsprechend angezeigt. HTML ist vom World Wide Web Consortium standardisiert, das eigens eine HTML Hompage unterhält.

TEXT

Im Kontext dieses Dokuments steht TEXT für die Ausgabemethode gleichen Namens bei XSL-Transformationen. TEXT erlaubt als drittes Ausgabeformat neben XML und HTML die Ausgabe beliebiger anderer textbasierter Daten wie etwa komma-separierte Dateien, Skripte oder selbstdefinierte Datenaustauschformate.

URI

Mit einem URI (Uniform Resource Identifier) werden Inhalte im Internet gekennzeichnet. Mit dem Begriff Inhalte sind in der Regel Dateien aller möglichen Formate gemeint, also Text, HTML, XML, Video, Sound und vieles mehr. Die häufigste Form einer URI ist eine URL. Ein typischer URI spezifiert

  • Den Zugriffsmechanismus auf den Inhalt (z. B. ein Protokoll wie http, ftp oder file)
  • Den Rechner, auf dem der Inhalt zu finden ist
  • den spezifischen Namen des Inhalts auf diesem Computer (typischerweise ein Dateiname)

Die Teile sind optional, weshalb ein Dateiname für sich (auch ein relativer) ein URI ist.

URL

Eine URL ist die Adresse einer Datei, auf die über das Internet zugegriffen werden kann. Der Art der Datei wird über das Zugriffsprotokoll bestimmt (nicht der Dateityp!). Beispielsweise werden vom HTTP-Protokoll HTML-Seiten, Java-Applets, CGI-Skripte usw. unterstützt. Eine URL besteht aus

  • Dem Zugriffsprotokoll
  • Einem Rechnernamen (der Domäne)
  • Einem spezifischen Dateinamen
WXML

WXML steht für „WordXML XML“. Hierbei handelt es sich um das festgelegt Ausgabeformat von WordXML in Form einer wohlgeformten XML-Datei. Die Datei enthält eine Repräsentation des Word-Dokumentinhaltes zusammen mit Struktur und Layoutinformationen. Das Format ist sehr detailiert und wird in der Regel vor einer Weiterverarbeitung noch einmal gefiltert.

Die Datei ist UTF-8 kodiert. Die Wohlgeformtheit des Dokuments ist garantiert. Die Dateien werden maschinell generiert und dürfen auf keinen Fall editiert werden. Eine Veränderung der Dokumente kann zu undefiniertem Ergebnissen führen. Änderungen des wxml-Formats obliegen im Zuge der Produktpflege einzig und allein der struktur AG.

XHTML

Ebenfalls vom Word Wide Web Consortium (W3C) festgelegt, ist XHTML eine Neuformulierung des HTML 4.0 Standards als XML-Anwendung. Tatsächlich ist XHTML die Folgeversion von HTML Im Gegensatz zu HTML kann XHTML aber von jederman erweitert werden. Außerdem gelten die Regeln für die Wohlgeformtheit eines XML-Dokuments

XML

XML (eXtensible Markup Language) ist eine Datenbeschreibungssprache, die ähnlich HTML die Strukturierung von Daten mit Hilfe von Tags unterstützt. Im Gegensatz zu HTML können in XML beliebig viele neue Tags eingeführt werden. Jeder kann die Menge der Tags, die er verwenden will, selbst spezifizieren. Der XML-Standard wurde vom World Wide Web Consortium verfaßt.

XSLT

XSLT steht für „eXtensible Stylesheet Language Transformations„. Ein Stylesheet enthält Anweisungen, wie Tags aus XML-Dokumenten verarbeitet werden. Eine Art der Verarbeitung ist die Ausgabe eines HTML-Tags für ein XML-Tag. So können XML-Dokumente vollständig nach HTML umgewandelt werden. Als Ausgabeformate stehen HTML, XHTML, XML und TEXT zur Verfügung. Das XSLT-Stylesheet legt dann die Regeln für die Umwandlung fest. Die Verarbeitung wird von sogenannten XSL-Prozessoren vorgenommen. XSLT ist ebenfalls vom World Wide Web Consortium standardisiert. Mehr Informationen hierzu gibt es auf der XSL-Seite des W3C.