Niedersorbische digitale Bibliothek

Informationen

Hintergrund

Diese Internetseite mit den auf ihr präsentieren Texten wurde von Oktober 2019 bis Ende 2021 in einem Drittmittelprojekt zur „Konzeption und Erarbeitung einer korpustextbasierten niedersorbischen digitalen Bibliothek“ erarbeitet. Die in der Digitalen Bibliothek enthaltenen Texte repräsentieren einen großen Teil des niedersorbischen Schrifttums bis 1945 und damit einen wichtigen Teil des sorbischen/wendischen Kulturerbes.

Die den Lesefassungen zugrundeliegenden hochwertigen Korpustexte wurden durch einen mehrstufigen aufwendigen Digitalisierungs- und Bearbeitungsprozess erstellt. Eine Beschreibung des Verfahrens und der Gesamtkonzeption zur Aufbereitung der Korpustexte findet sich im Artikel „Das niedersorbische Globalkorpus als Ziel einer ganzheitlichen Konzeption zum Aufbau von Textkorpora“ (Bartels 2020 im Lětopis 67, Heft 2, S. 4-44).

Das Vorhaben wurde gefördert durch die Logo der Beauftragten der Bundesregierung für Kultur und MedienBeauftragte der Bundesregierung für Kultur und Medien und zwar als Modul des kooperativen Strukturwandel-Sofortprojekts Inwertsetzung des immateriellen Kulturerbes im deutsch-slawischen Kontext.

Inhalt

Für die niedersorbische digitale Bibliothek wurde ein breites Spektrum an Korpustexten ausgewählt, die auf ihre Weise das niedersorbische/wendische Schrifttum repräsentieren: Einerseits wird de facto die gesamte niedersorbische/wendische Publizistik (in weitem Sinne) vor dem Zweiten Weltkrieg (Casnik, Pratyja, Wósadnik) zugänglich gemacht, andererseits wurden ca. 200 Bücher verschiedenen Inhalts ausgewählt.

Ein Spezifikum des niedersorbischen (nicht publizistischen) Vorkriegsschrifttums ist seine weitgehend religiöse Ausrichtung – auch in belletristischen Texten. Die geringe Anzahl nichtreligiöser Texte in der Bibliothek resultiert folglich aus dem realen Stand des Schrifttums und nicht aus dem Auswahlprozess.

Die Bibel aus dem Jahr 1868 ist auf einer separaten Seite zugänglich, die den spezifischen Umgang mit dieser Textsorte ermöglicht, nämlich das Navigieren innerhalb der besonderen biblischen strukturellen Texteinheiten (Buch/Kapitel/Vers). Perspektivisch kann diese Seite um weitere Ausgaben der niedersorbischen/wendischen Bibel erweitert werden.

Es wird darauf hingewiesen, dass es sich um historische Texte handelt. Ihr Inhalt ist aus heutiger Sicht an verschiedenen Stellen aus unterschiedlichen Gründen problematisch und spiegelt die Gedanken und Meinungen der jeweiligen Autoren wieder.

Aufbereitung und Darstellung

Die auf den Seiten der digitalen Bibliothek bereitgestellten Texte wurden mithilfe eines komplexen Digitalisierungsprozesses mit den folgenden grundsätzlichen Schritten aufbereitet:

  • Scannen des Originals bzw. Beschaffung des bereits existierenden Bilddigitalisats.
  • Professionelles Abschreiben des Textes, meist durch das sogenannte Double Keying, bei dem Abschriften verschiedener Personen verglichen werden, um Abschreibfehler zu finden und zu korrigieren. Dieser Prozess ist arbeitsaufwendig, garantiert jedoch im Vergleich zum automatischen OCR-Prozess eine hohe Genauigkeit der Abschrift.
  • Die Abschrift wird vereinheitlicht und nach vorgesehenen Standards kodiert. Im Fall des niedersorbischen Textkorpus wurden Unicode (UTF-8) für die Buchstabenkodierung und TEI P5 für die Metaangaben sowie die Annotation der semantischen Struktur des Dokuments genutzt. Mithilfe der Strukturannotation werden Elemente wie z. B. Anfang und Ende von Kapiteln, Artikeln oder Rubriken, Titel, Zwischentitel, die Position von Bildern sowie Bildunterschriften, Gedichtstrophen, hervorgehobene Zitate, Tabellenzellen, Fußnoten, Seitenzahlen und viele weitere Elemente markiert, die im Druck mithilfe verschiedener konventioneller grafischer und typografischer Mittel ausgedrückt werden.
  • Der Inhalt, also der sorbische/wendische Text, wird weiter analysiert, teils automatisch, teils manuell. So ensteht eine Sprachannotation, die jedem der Millionen Wörter eine normierte sowie eine Grundform zuordnet, die wiederum Abfragen im Rahmen des Komfortsuche-Systems ermöglicht.
  • Mit den Dokumenten verbunden sind detaillierte Metaangaben: Titel, Autor, Redakteur, Ausgabejahr. Diese Angaben werden weiter bearbeitet, normiert und kodiert. Die Daten werden in originaler und heutiger Schreibung im Bibliothekskatalog zusammengestellt. Sie bilden somit die Grundlage für die Durchsicht und den Zugang zu den Inhalten der Bücherei.
  • Auf Grundlage der konsistenten Annotationsstruktur wird eine Internetausgabe generiert. Textelemente wie Titel, Strophen, Listen, Absätze usw. werden mithilfe unifizierter typografischer Mittel unterschieden. Sie werden folglich für den gesamten Bibliotheksbestand einheitlich dargestellt, also nicht identisch mit den jeweils unterschiedlichen Lösungen in den Originalausgaben. Die hierarchische Dokumentstruktur, die bspw. aus Buchkapiteln oder Zeitungsartikeln, -rubriken und einigen weiteren Elementen besteht, wird zusätzlich in einem Inhaltsverzeichnis zusammengestellt. So wird der Zugriff auf konkrete Fragmente erleichtert.
  • Neben der direkt im Browser zugänglichen Version (HTML) gibt es Downloadvarianten, die bspw. eine Offline-Nutzung ermöglichen. Angeboten werden die Formate PDF, ePUB und das einfache Textformat. Mit Blick auf die typografische Vielfalt der Ausgangstexte und auf das Bedürfnis nach einer möglichst einheitlichen grafischen Darstellung der digitalen Ausgaben, konnte der Text in einigen Fällen nicht optimal gesetzt werden; betroffen sind vor allem umfangreiche Tabellen. Einige Ausgabegeräte können Schwierigkeiten mit der korrekten Darstellung einiger in den historischen sorbischen Texten verwendeter Zeichen und Diakritika haben.
  • Zusätzlich gibt es bei den präsentierten Dokumenten Verweise auf digitale Faksimiles, sofern solche vorhanden sind. Die meisten der entsprechenden Daten werden auf dem Portal Sachsen.digital oder auf den Seiten der Sorbischen Zentralbibliothek bereitgestellt.

Projektgruppe

Gesamtleitung
Hauke Bartels
Projektkoordination
Joanna Szczepańska
Seitenkonzeption
Hauke Bartels, Fabian Kaulfürst, Joanna Szczepańska, Marcin Szczepański
Verwaltung des Textcorpus
Marcin Szczepański
Erstellung und Verwaltung der lexikalischen Datenbank
Marcin Szczepański
Versionen mit modernisierter Schreibung
Fabian Kaulfürst
Automatische Lemmatisierung der Texte
Marek Slodička
Manuelle Normalisierung bzw. Lemmatisierung der Texte (ausgewählte Publikationen)
Katja Atanasov, Joanna Szczepańska, Marcin Szczepański
Strukturierung der Texte
Martin Balzer, Regina Kindermann, Beate Sende, Joanna Szczepańska, Marcin Szczepański
Erzeugung der Bilddigitalisate und Online-Bereitstellung
Wito Böhmak / Sorbische Zentralbibliothek (teilweise in Kooperation mit der SLUB im Rahmen des sächsichen Landesdigitalisierungsprogramms)
Scannen und Ordnen der digitalen Bilder
Josephine Rachel
Setzen der digitalen Ausgaben und technische Realisierung der Webseite
Marcin Szczepański
Teil Komfortsuche
Marek Slodička

Nutzungsbedingungen

Alle Volltexte in der niedersorbischen digitalen Bibliothek stehen – soweit nicht anderweitig gekennzeichnet – unter einer Creative Commons Lizenz (CC BY-SA 4.0) zur Verfügung und dürfen uneingeschränkt genutzt werden. Bei einer Weiterverwendung der Texte ist auf das Sorbische Institut als Urheber der elektronischen Fassung hinzuweisen und die gleiche Lizenz zu nutzen.

Die reine Textversion eines Werkes ist von einer angegebenen Lizenz nicht betroffen. Das heißt: Die Reintext-Version eines Werkes (ohne Annotationen der XML- bzw. HTML-Versionen) kann im Sinne der Gemeinfreiheit ohne jegliche Einschränkungen benutzt werden.

Entwicklung der Seite

2022-01-31
Veröffentlichung der ersten Version im Internet