[bodza-l] stop words -- rendezes

2004. Nov. 25., Cs, 15:14:03 CET

Kedves Kolléganők, Kollégák!

Kihagytam pár hetet, elnézést kérek ezért. Vissza kell térnem a fenti 
két témához. Valójában két külön fogalomról és két külön problémáról van 
szó! Most csak felvetem a problémákat, megoldást nem tudok javasolni.

-----
1. Stop word:
olyan szó, amelyet a rendszer az indexek építésekor is, a kereső kérdés 
feldolgozásakor is figyelmen kívül hagy. Ilyen szavak: névelők, 
prepozíciók, kötőszók stb. Stop list: ezen szavak jegyzéke, táblája.

A stop list tartalma függ a nyelvtől. Pl. "die" a németben stop word 
kell legyen, az angolban nem stop word!

A MOKKA-R rekordjaiban a leírt dokumentumok között sokféle nyelvű 
előfordul: latin, ógörög stb. és az élő nyelvek. A bibliográfiai leírás 
nyelve pedig - felteszem, minthogy magyarországi könyvtárak anyagáról 
van szó - magyar. A HUNMARC (és MARC 21 stb.) formátumban mindkettő: a 
dokumentum nyelve(i) is, és a leírás nyelve is a megfelelő mezőkben 
kódolva van.

Kérdések: Lehet-e, érdemes-e a rekordban található nyelvkódokat 
MOKKA-R-ben felhasználni? Legyen-e, lehet-e MOKKA-R-ben több stop list, 
külön-külön az egyes nyelvekhez? Külön gondot okozhatnak a többnyelvű 
dokumentumok. Melyik legyen a mérvadó, a dokumentum nyelve, vagy a 
leírás nyelve? Azokban a katalógusokban, amelyekből MOKKA-R felépül, 
megvannak-e a nyelvkódok, s ha igen, összeegyeztethetők-e a különböző 
formátumok? Meg kellene nézni, hogy e katalógusokban milyen stop 
listákat használnak. Szabó Julianna közreadott egy ilyen listát.

Megjegyzés: Meg kell különböztetnünk az index építésének folyamatát és a 
keresés folyamatát. Azt sejtem, hogy az indexek építésekor fel lehetne 
használni (ha egyáltalán lehet) az egyes rekordokban lévő nyelvkódokat 
és a több különböző stop listát (ha vannak); kereséskor azonban csakis 
valamilyen összesített, a különböző nyelvek listáiból egyesített stop 
lista szerepelhet, és a keresés folyamatában nem lehet figyelembe venni 
a rekordokban lévő nyelvkódokat. Az egyesített stop lista használatát 
esetleg rugalmasabbá lehet tenni: Bizonyos rendszerekben a kereső 
kérdésbe megfelelő jellel (pl. + jellel) ellátva olyan szavakat is 
beírhatunk, amelyeket keresni akarunk, bár a stop listában szerepelnek. 
Ennek persze csak akkor van értelme, ha az adott szó bekerült az indexbe.

-----
2. Rendezés,
azaz a találati halmaz elemeinek rendezése különböző szempontok szerint. 
Most a címek betűrendbe sorolásáról van szó. Mint korábban egyszer, 
ismét hivatkozom az
MSZ 3493 : 1982 : Bibliográfiai tételek besorolási szabályai
szabványra. (Sajnos most nincs kezemben; remélem, jól emlékszem.) Ha a 
cím ragozatlan névelővel kezdődik, a besoroláskor ezt figyelmen kívül 
kell hagyni.

Kérdés: Össze lehetne-e állítani MOKKA-R-ben eme névelők listáját? 
Vigyázat: ez nem a stop list, ezt valahogyan másképpen kellene nevezni!

Megjegyzések:
(a) Gondot okoznak pl. a következők:
- függ a nyelvtől, pl. németben "die" a cím elején figyelmen kívül 
hagyandó, angolban azonban be kell számítani, pl.: Die hard (film)
- a névelő állhat a címben "főszerepben" is, pl.:
Der..., die..., das... : a német nyelvtan gyakorlati útmutatója / Markó 
Ivánné
- a névelő más esete azonos alakú lehet az alanyesettel (de lehet, hogy 
ekkor is figyelmen kívül kell hagyni?), pl.:
Der neuen Gedichte anderer Teil / Rainer Maria Rilke
- számnév, névmás azonos alakú lehet egy névelővel, pl.: Egy az Isten.
(b) Tehát esetenként kell eldönteni, hogy a cím első szava valóban 
ragozatlan névelő-e vagy valami más.
(c) Enyhítő körülmény: Ha a "névelővel" kezdődő cím első szavát a 
rendezéskor figyelembe vesszük, illetve nem vesszük figyelembe, akkor a 
mellőzött címalakról utaló készíthető. Pontosabban lásd:
MSZ 3440/4 : 1986 : A bibliográfiai leírás besorolási adatai : címek. 
2.8, 2.9 szakasz.
(d) HUNMARC stb.-ben az adott címmező 1., illetve 2. indikátorában 
jelezni kell a rendezéskor elhagyandó karakterek számát.

Kérdések: Meg lehetne-e valósítani MOKKA-R-ben a rendezést a fenti 
előírások (az idézett szabványok) szerint? Az eseti döntésekhez 
segítségül lehetne-e venni a HUNMARC mező megfelelő indikátorát? 
Készítsünk-e a mellőzött címalakról utalót, azaz bekerüljön-e a cím az 
indexbe névelővel is, és névelő nélkül is (lásd az alábbi megjegyzést)?

Megjegyzés: A rendezés (tehát a jelen 2. pont) fent vázolt problémái 
nemcsak a találati halmaz elemeinek rendezésére, hanem - ami sokkal 
fontosabb - az index építésére, vagyis az indexben az indextételek 
rendezésére, és ezzel a böngészéskor (scan) kinyíló listára is vonatkoznak.

Kérem, gondoljuk meg együtt, vitassuk meg! Üdvözlettel,

Rozsondai Béla
MTA Könyvtára