Textdigitalisierung ist ein Arbeitsfeld, das sich seit einigen Jahren in einer sehr dynamischen Entwicklung befindet. Es sind kommerzielle Grossprojekte wie Google Print, welche das Tempo der technischen, juristischen und politischen Veränderungen bestimmen und aufgrund deren mit bedeutenden technischen und rechtlichen Neuerungen zu rechnen ist – insbesondere auf dem Gebiet des Urheberrechts, wo bis anhin der Veröffentlichung von Textausschnitten enge Grenzen gesetzt sind. Auch Bibliotheken und private Firmen investieren derzeit viel in die Retrodigitalisierung von Beständen. Textdigitalisierung spielt eine bedeutende Rolle - dass die Universitäten dabei gegenüber den kommerziellen Unternehmen für die Qualitätssicherung in allen Bereichen besorgt sein müssen, bleibt unerlässlich.
Die Fachkompetenz, welche beim Schweizer Textkorpus insbesondere für die Bereiche Texterkennung und –annotierung während des Projektverlaufs aufgebaut werden konnte, kann auch für Dritte von Interesse sein.
Das Schweizer Textkorpus setzt schwergewichtig auf Zusammenarbeit und offene Standards, um für seine Zwecke die bestmöglichen Technologien einsetzen zu können.
Offene Standards sind in der Text- und Korpustechnologie unverzichtbar, damit nachhaltig verfügbare Ressourcen bereitgestellt werden können. Wie viele andere Korpora kodiert das Schweizer Textkorpus die XML-Versionen seiner Dokumente nach den Vorgaben der Text Encoding Initiative (TEI). Die Scans mit hinterlegtem Text werden als archivierbare PDFs (PDF/A nach ISO 19005-1) aufbewahrt.
Für die Verarbeitung der Texte und die Publikation des Korpus im Internet wird, wo möglich und sinnvoll, quelloffene Software und/oder Software unserer Partnerprojekte eingesetzt. So basiert die Suchoberfläche des Schweizer Textkorpus auf dem Webframework Django, die linguistische Suchmaschine für die Indexierung der Korpustexte im Hintergrund ist DDC, das von unserem Berliner Partnerprojekt DWDS entwickelt wurde.
Das Schweizer Textkorpus ist auch sehr offen für Erfahrungsaustausch im Bereich Korpustechnologie.
Der Korpusaufbau beim Schweizer Textkorpus war von Anfang an darauf angelegt, den standarddeutschen Wortschatz des zwanzigsten Jahrhunderts in der Schweiz möglichst breit zu erfassen. Das Korpus besteht daher aus gedruckten und maschinengeschriebenen Texten jeglicher Produktions- und Publikationsform, möglichst ausgewogen zusammengestellt nach zeitlichen (ganzes 20. Jh.) und inhaltlich-sachlichen Kriterien:
- Textsorte: formales Kriterium
- Jahrhundertviertel: zeitliches Kriterium
- Sachgruppe: inhaltliches Kriterium
Dieser ausgewogene und strukturierte Aufbau macht das Schweizer Textkorpus zu einer ausgewogenen Datenbasis für linguistische Fragestellungen.
Das Schweizer Textkorpus ist nach den genannten Kriterien folgendermassen strukturiert:
1900-1924 | 1925-1949 | 1950-1974 | 1975-1999 | 2000-2018 | gesamt | |||||||
W | TW | W | TW | W | TW | W | TW | W | TW | W | TW | |
Gebrauchstexte | 1042 | 1'122'547 | 1'465 | 1'235'998 | 969 | 1'165'808 | 1'417 | 1'036'198 | 1'238 | 944'778 | 6'131 | 5'505'329 |
Sachtexte | 167 | 1'447'644 | 433 | 2'043'191 | 804 | 1'943'462 | 276 | 1'846'198 | 898 | 985'400 | 2'578 | 8'265'832 |
Journalistische Prosa | 833 | 501'527 | 1'107 | 1'006'662 | 993 | 970'560 | 1'929 | 1'117'639 | 1'267 | 973'282 | 6'129 | 4'569'670 |
Belletristik | 188 | 1'116'823 | 50 | 1'248'864 | 159 | 1'122'446 | 59 | 1'147'943 | 40 | 942'760 | 496 | 5'578'836 |
gesamt | 2'230 | 4'188'541 | 3'055 | 5'534'715 | 2'925 | 5'202'276 | 3'681 | 5'147'978 | 3'443 | 3'845'700 | 15'334 | 23'919'667 |
W = Werke
TW = Textwörter (Tokens minus Satzzeichen)
Der Korpusaufbau beim Schweizer Textkorpus war von Anfang an darauf angelegt, den standarddeutschen Wortschatz des zwanzigsten Jahrhunderts in der Schweiz möglichst breit zu erfassen. Das Korpus besteht daher aus gedruckten und maschinengeschriebenen Texten jeglicher Produktions- und Publikationsform, möglichst ausgewogen zusammengestellt nach zeitlichen (ganzes 20. Jh.) und inhaltlich-sachlichen Kriterien:
- Textsorte: formales Kriterium
- Jahrhundertviertel: zeitliches Kriterium
- Sachgruppe: inhaltliches Kriterium
Dieser ausgewogene und strukturierte Aufbau macht das Schweizer Textkorpus zu einer ausgewogenen Datenbasis für linguistische Fragestellungen.
Das Schweizer Textkorpus ist nach den genannten Kriterien folgendermassen strukturiert:
Werke/ Textwörter 1900-1924 |
Werke/ Textwörter 1925-1949 |
Werke/ Textwörter 1950-1974 |
Werke/ Textwörter 1975-1999 |
Werke/ Textwörter 2000-2018 |
gesamt |
||||||
Gebrauchstexte |
1'042 |
1'170'099 |
1'465 |
1'267'731 |
969 |
1'193'200 |
1'417 |
1'087'395 |
1'238 |
962'316 |
6'131 |
Sachtexte |
167 |
1'450'562 |
433 |
2'052'909 |
804 |
1'954'529 |
276 |
1'891'373 |
898 |
980'125 |
2'578 |
Belletristik |
188 |
1'116'820 |
50 |
1'248'911 |
159 |
1'122'447 |
59 |
1'149'111 |
40 |
944'405 |
496 |
Journalistische Prosa |
833 |
513'728 |
1'107 |
1'020'160 |
993 |
982'098 |
1'929 |
1'135'426 |
1'267 |
970'559 |
6'129 |
gesamt |
2'230 |
4'251'209 |
3'055 |
5'589'711 |
2'925 |
5'252'274 |
3'681 |
5'263'305 |
3'443 |
3'857'405 |
15'334 |