Niedersorbisches Textkorpus

(Standardsuche im alten Korpus)

Informationen

Das Niedersorbische Textkorpus umfasst derzeit Schrifttum im Umfang von mehr als 23 Millionen Token (laufende Wortformen), wovon jetzt ca. 15 Millionen online zur Verfügung gestellt werden. Die digitale Textsammlung wurde über Jahre in der Cottbuser Zweigstelle für niedersorbische Forschungen des Sorbischen Instituts erstellt. Das Hauptaugenmerk galt dabei bisher vor allem der Digitalisierung der Texte, mit dem Zweck, diese maschinell lesbar und verarbeitbar zu machen. Auf diese Weise konnte bereits ein Großteil des niedersorbischen Schrifttums für wissenschaftliche Forschung zugänglich gemacht werden, was bisher vor allem für die lexikographischen Projekte der Abteilung von Nutzen war.

Da die Originalschreibweise der Texte beibehalten wurde, ist das Korpus durch verschiedene, sich z. T. erheblich voneinander unterscheidende und auch intern nicht immer einheitliche (Recht)Schreibkonventionen der Texte gekennzeichnet. Außerdem war es auf Grund der personellen Situation bisher leider nicht möglich, alle Texte vollständig zu korrigieren, so dass stellenweise mit (Ab)Schreibfehlern zu rechnen ist.

Die Suche innerhalb des Niedersorbischen Textkorpus kann mit Hilfe von regulären Ausdrücken erfolgen.

Die Online-Version des Niedersorbischen Textkorpus wurde ermöglicht durch technische Unterstützung des Ústav Českého národního korpusu der Prager Karlsuniversität. Von dessen Seiten aus kann ebenfalls auf die niedersorbischen Texte zugegriffen werden. Fortgeschrittenen Anwendern stellt dieser Zugang zusätzliche Funktionen (Filter, Kollokationsabfrage usw.) zur Verfügung, die derzeit in unserem Webangebot noch nicht möglich sind.

Seit dem 27.9.2023 wird über die Prager Seiten auch eine erweiterte, durch die Arbeit des SI qualitativ bearbeitete, normalisierte und lemmatisierte Korpusversion bereitgestellt.