Home Korpus

Der Korpusaufbau beim Schweizer Textkorpus war von Anfang an darauf angelegt, den standarddeutschen Wortschatz des zwanzigsten Jahrhunderts in der Schweiz möglichst breit zu erfassen. Das Korpus besteht daher aus gedruckten und maschinengeschriebenen Texten jeglicher Produktions- und Publikationsform, möglichst ausgewogen zusammengestellt nach zeitlichen (ganzes 20. Jh.) und inhaltlich-sachlichen Kriterien:

  • Textsorte: formales Kriterium
  • Jahrhundertviertel: zeitliches Kriterium
  • Sachgruppe: inhaltliches Kriterium

Dieser ausgewogene und strukturierte Aufbau macht das Schweizer Textkorpus zu einer ausgewogenen Datenbasis für linguistische Fragestellungen.

Das Schweizer Textkorpus ist nach den genannten Kriterien folgendermassen strukturiert:

  1900-1924 1925-1949 1950-1974 1975-1999 2000-2018 gesamt
  W TW W TW W TW W TW W TW W TW
Gebrauchstexte 1042 1'122'547 1'465 1'235'998 969 1'165'808 1'417 1'036'198 1'238 944'778 6'131 5'505'329
Sachtexte 167 1'447'644 433 2'043'191 804 1'943'462 276 1'846'198 898 985'400 2'578 8'265'832
Journalistische Prosa 833 501'527 1'107 1'006'662 993 970'560 1'929 1'117'639 1'267 973'282 6'129 4'569'670
Belletristik 188 1'116'823 50 1'248'864 159 1'122'446 59 1'147'943 40 942'760 496 5'578'836
gesamt 2'230 4'188'541 3'055 5'534'715 2'925 5'202'276 3'681 5'147'978 3'443 3'845'700 15'334 23'919'667

W = Werke
TW = Textwörter (Tokens minus Satzzeichen)