Niedersorbisches Textkorpus

(Komfortsuche im neuen Korpus)

Hinweise zur Expertensuche

Die für die Komfortsuche vorbereiteten Texte wurden mithilfe der IMS Open Corpus Workbench (CWB) indiziert und durchsuchbar gemacht. Wird innerhalb der Sucheinstellungen die Expertensuche aktiviert, können daher auch CQL-Suchausdrücke und reguläre Ausdrücke verwendet werden. Im neuen Korpus für die Komfortsuche wurden folgende Token-Attribute verwendet:

word
Tokenform, wie sie im Text vorkommt.
lemma
Lemmatisierte Form des Tokens. Bei Abkürzungen, Zahlen und Sonderzeichen ist diese Form identisch mit dem word-Attribut. Für Interpunktionstokens ist das lemma-Attribut nicht definiert. Die lemmatisierte Form ist durchgängig in Großbuchstaben erfasst und im Allgemeinen nicht disambiguiert, es werden alle potenziellen Homonyme mit | getrennt aufgezählt.
norm
Die in gegenwärtige Rechtschreibung übersetzte (normalisierte) Form des Tokens. Für Zahlen, Sonderzeichen und Interpunktionstokens ist das norm-Attribut nicht definiert. Die normalisierte Form ist im Allgemeinen nicht disambiguiert, es werden alle potenziellen Homonyme mit | getrennt aufgezählt.
name
Eigenname.
Mögliche Werte sind ;,;1;,; für Appellativa und ;,;0;,; für Propria.
toktype
Tokentyp.
Mögliche Werte sind ;,;w;,; für ein Worttoken und ;,;pc;,; für ein Interpunktionstoken.
type
Weitere Tokentypinformation.
Mögliche Werte sind number für Zahlen und symbol für Sonderzeichen, sonst nicht definiert.
foreign
Nichtniedersorbisches Wort.
Mögliche Werte sind ;,;0;,; für ein niedersorbisches Wort und ;,;1;,; für ein nichtniedersorbisches Wort.