Pokazki za ekspertowe pytanje
Teksty, ako su se pśigótowali za komfortne pytanje, su se z pomocu IMS Open Corpus Workbench (CWB) indicěrowali a za pśepytanje zepśigótowali. Gaž aktiwěrujo se w pytańskich nastajenjach ekspertowe pytanje, mógu se toś teke nałožowaś wótpšašowanja w rěcy CQL a regularne wuraze. W nowem korpusu za komfortne pytanje su se wužywali slědujuce tokenowe atributy:
word
- Forma tokena, tak ako w teksće wustupujo.
lemma
- Lematizěrowana forma tokena. Pla skrotconkow, licbow a wósebnych znamuškow jo toś ta forma identiska z atributom
word
. Za interpunkciske tokeny njejo atributlemma
definěrowany. Lematizěrowana forma jo pśezceło zapisana z wjelikimi pismikami. Wóna njejo powšyknje disambiguěrowana. Wšykne potencielne homonymy se nalice źělone z pomocu znamuška|
. norm
- Do źinsajšnego pšawopisa pśewjeźona (normalizěrowana) forma tokena. Za licby, wósebne znamuška a za interpunkciske tokeny njejo atribut
norm
definěrowany. Normalizěrowana forma njejo powšyknje disambiguěrowana. Wšykne potencielne homonymy se nalice źělone z pomocu znamuška|
. name
- Swójske mě.
- Móžnej gódnośe stej
;,;1;,;
za apelatiwa a;,;0;,;
za propria (konkretnej formje stej techniski zawinowanej). toktype
- Typ tokena.
- Móžnej gódnośe stej
;,;w;,;
za słowny token a;,;pc;,;
za interpunkciski token (konkretnej formje stej techniski zawinowanej). type
- Dalšne informacije wó typje tokena.
- Móžnej gódnośe stej
number
za licby asymbol
za wósebne znamuška, howacej njedefiněrowane. foreign
- Njedolnoserbske słowo.
- Móžnej gódnośe stej
;,;0;,;
za dolnoserbske słowo a;,;1;,;
za njedolnoserbske słowo (konkretnej formje stej techniski zawinowanej).