Home Korpus

Dank Möglichkeiten der Digitalisierung und weltweiter Vernetzung über Internet sind in den vergangenen Jahrzehnten für viele Sprachen elektronische Korpora entstanden oder zurzeit im Aufbau. Als Prototyp eines solchen Korpus gilt das zwischen 1991 und 1994 entstandene British National Corpus (BNC) mit 100 Mio. Textwörtern. Dieses Korpus ist ausgewogen aufgebaut, es ist annotiert, lemmatisiert und automatisch nach Wortarten analysiert.

Inzwischen ist eine Vielzahl von Digitalisierungs- und Korpus-Projekten entstanden oder am Entstehen. Für das Deutsche sind im wesentlichen zwei Korpora zu nennen: Einerseits das grosse Korpus am Institut für deutsche Sprache IdS in Mannheim mit mehreren Milliarden Textwörtern, teilweise auch aus der Schweiz, andererseits das Gutenberg-Projekt, das literarische Texte von über 800 Autorinnen und Autoren, die nicht mehr urheberrechtsgeschützt sind, in gemeinsamer Anstrengung der Internet-Gemeinschaft sammelt.

Das Mannheimer Korpus ist die weltweit grösste Sammlung deutscher Texte, enthält aber überwiegend Zeitungstexte und ist daher als lexikografische Datenbank unausgewogen. Die Gutenberg-Datenbank enthält ausschliesslich literarische Texte, aber im Wesentlichen nur von Autorinnen und Autoren, die vor mehr als 70 Jahren gestorben sind.

Die meisten anderen digitalen Korpora des Deutschen sind von computerlinguistischen Forschungsstellen aufgebaut worden und enthalten vorwiegend neue und neueste Texte aus Zeitungsarchiven oder dem Internet. Daneben existieren Korpus- und Wörterbuchportale, welche über Internet verschiedene Projekte zusammenführen (z. B. Link Everything Online LEO, Wörterbuch-Portal, Canoo).

Es existierte aber vor dem Schweizer Textkorpus noch kein digitales Korpus von deutschsprachigen Schweizer Texten. Das Schweizer Textkorpus schliesst diese Lücke und bietet für die lexikografische und andere linguistische Forschung eine ausgewogene empirische Datenbasis.

Das Schweizer Textkorpus widmet sich der deutschen Standardsprache der Schweiz des 20. und 21. Jahrhunderts. Die digitale Sammlung ist anhand formaler, inhaltlicher und zeitlicher Kriterien aufgebaut und umfasst aktuell 23.5 Millionen Textwörter. Sie stellt eine ausgewogene Repräsentation des Deutschschweizer Wortschatzes dar und kann als Grundlage für spezifisch schweizerische lexikografische Fragestellungen dienen. Das Textkorpus wird bis 2025 um weitere Texte aus dem 21. Jahrhundert angereichert.

Das Schweizer Textkorpus entstand als Teilprojekt des internationalen Forschungsvorhabens Korpus C4. Ziel dieser Vereinigung mit Partnerprojekten aus Deutschland, Österreich und Italien war es, die deutsche Standardsprache des 20. Jahrhunderts möglichst ausgewogen zu erfassen und online zugänglich zu machen. Zu diesem Zweck wurden deutschsprachige Texte aller Art digitalisiert (Zeitungsartikel, Werbung, Formulare, Anleitungen, Ratgeber, populäre Fachliteratur, Jugend- und Trivialliteratur, Belletristik etc.). Seit April 2009 ist eine erste Version des Korpus C4 veröffentlicht, die allerdings noch nicht den vollständigen Bestand an Textwörtern enthält. Für die deutsche Sprache des 20. Jahrhunderts steht damit erstmals ein ausgewogenes und regionale Varianten berücksichtigendes Textkorpus bereit, das sich für verschiedene linguistische Fragestellungen verwenden lässt.

Das Schweizer Textkorpus wurde von einer Forschungsgruppe des Deutschen Seminars der Universität Basel aufgebaut und in dieser Phase zur Hauptsache vom Schweizerischen Nationalfonds finanziert. Seit 2014 wird es am Schweizerischen Idiotikon betreut und von der Schweizerischen Akademie für Geistes- und Sozialwissenschaften finanziell unterstützt.

 

Unterkategorien