Home Korpus

Das Schweizer Textkorpus enthält auch wenig beachtete Texte aus Archiven, sofern diese maschinengeschrieben sind. Handschriftliche Texte können zurzeit nicht berücksichtigt werden.

Das nebenstehende Beispiel ist eine Patentschrift aus den 30er-Jahren.

Das Schweizer Textkorpus enthält Texte aus Schweizer Zeitungen des 20. Jahrhunderts.

Das nebenstehende Beispiel stammt aus dem Walliser Boten des Jahres 1919. Zeitungstexte bieten besondere Schwierigkeiten bei der Digitalisierung, da das Papier oft von schlechter Qualität ist, sodass ältere Zeitungsjahrgänge nur mit grossen Schwierigkeiten mit OCR gelesen werden können.

Die einzelnen Artikel einer Zeitung werden im Schweizer Textkorpus als jeweils eigener Text behandelt.

Das Schweizer Text Korpus enthält auch Werbetexte und Anzeigen, da darin charakteristische Textstücke vorkommen, die in anderen Textsorten nicht zu finden sind.

Häufige grafische Elemente erschweren die Digitalisierung solcher Texte, darum sind sie in anderen Korpora häufig weggelassen worden.

Das nebenstehende Bild ist eine Seite aus Rudolf Zäch: Die neuzeitliche Küche. Wallisellen, 1931.

Wie dieser sind viele Texte aus der ersten Jahrhunderthälfte in Fraktur publiziert, einer Schrift, die von jüngeren Lesern oft nicht mehr mühelos gelesen werden kann. Die Digitalisierung macht solche Texte wieder neu zugänglich.

Nachdem ein Text angeschafft wurde, werden zuerst alle relevanten bibliografischen Angaben in einer Datenbank erfasst.

Für die Digitalisierung muss oft zuerst das Originalbuch zerschnitten werden, damit die die Seiten einzeln gescannt und für das OCR (Optical Character Recognition - automatische Texterkennung) aufbereitet werden können.

Die hier ausgewählte Seite enthält eine ganze Reihe von Herausforderungen, so das automatische Erkennen der Frakturschrift und der gesperrten Wörter, wofür es eines speziellen Programms bedarf. Weiter muss der Umgang mit speziellen Textelementen wie den Marginalien, den Aufzählungen und der Anmerkung bestimmt werden.