Hinweise zur Expertensuche
Die für die Komfortsuche vorbereiteten Texte wurden mithilfe der IMS Open Corpus Workbench (CWB) indiziert und durchsuchbar gemacht. Wird innerhalb der Sucheinstellungen die Expertensuche aktiviert, können daher auch CQL-Suchausdrücke und reguläre Ausdrücke verwendet werden. Im neuen Korpus für die Komfortsuche wurden folgende Token-Attribute verwendet:
word
- Tokenform, wie sie im Text vorkommt.
lemma
- Lemmatisierte Form des Tokens. Bei Abkürzungen, Zahlen und Sonderzeichen ist diese Form identisch mit dem
word
-Attribut. Für Interpunktionstokens ist daslemma
-Attribut nicht definiert. Die lemmatisierte Form ist durchgängig in Großbuchstaben erfasst und im Allgemeinen nicht disambiguiert, es werden alle potenziellen Homonyme mit|
getrennt aufgezählt. norm
- Die in gegenwärtige Rechtschreibung übersetzte (normalisierte) Form des Tokens. Für Zahlen, Sonderzeichen und Interpunktionstokens ist das
norm
-Attribut nicht definiert. Die normalisierte Form ist im Allgemeinen nicht disambiguiert, es werden alle potenziellen Homonyme mit|
getrennt aufgezählt. name
- Eigenname.
- Mögliche Werte sind
;,;1;,;
für Appellativa und;,;0;,;
für Propria. toktype
- Tokentyp.
- Mögliche Werte sind
;,;w;,;
für ein Worttoken und;,;pc;,;
für ein Interpunktionstoken. type
- Weitere Tokentypinformation.
- Mögliche Werte sind
number
für Zahlen undsymbol
für Sonderzeichen, sonst nicht definiert. foreign
- Nichtniedersorbisches Wort.
- Mögliche Werte sind
;,;0;,;
für ein niedersorbisches Wort und;,;1;,;
für ein nichtniedersorbisches Wort.