[bodza-l] stop words -- rendezes
Rozsondai Bela
rozsondaib at vax.mtak.hu
2004. Nov. 25., Cs, 15:14:03 CET
Kedves Kolléganők, Kollégák!
Kihagytam pár hetet, elnézést kérek ezért. Vissza kell térnem a fenti
két témához. Valójában két külön fogalomról és két külön problémáról van
szó! Most csak felvetem a problémákat, megoldást nem tudok javasolni.
-----
1. Stop word:
olyan szó, amelyet a rendszer az indexek építésekor is, a kereső kérdés
feldolgozásakor is figyelmen kívül hagy. Ilyen szavak: névelők,
prepozíciók, kötőszók stb. Stop list: ezen szavak jegyzéke, táblája.
A stop list tartalma függ a nyelvtől. Pl. "die" a németben stop word
kell legyen, az angolban nem stop word!
A MOKKA-R rekordjaiban a leírt dokumentumok között sokféle nyelvű
előfordul: latin, ógörög stb. és az élő nyelvek. A bibliográfiai leírás
nyelve pedig - felteszem, minthogy magyarországi könyvtárak anyagáról
van szó - magyar. A HUNMARC (és MARC 21 stb.) formátumban mindkettő: a
dokumentum nyelve(i) is, és a leírás nyelve is a megfelelő mezőkben
kódolva van.
Kérdések: Lehet-e, érdemes-e a rekordban található nyelvkódokat
MOKKA-R-ben felhasználni? Legyen-e, lehet-e MOKKA-R-ben több stop list,
külön-külön az egyes nyelvekhez? Külön gondot okozhatnak a többnyelvű
dokumentumok. Melyik legyen a mérvadó, a dokumentum nyelve, vagy a
leírás nyelve? Azokban a katalógusokban, amelyekből MOKKA-R felépül,
megvannak-e a nyelvkódok, s ha igen, összeegyeztethetők-e a különböző
formátumok? Meg kellene nézni, hogy e katalógusokban milyen stop
listákat használnak. Szabó Julianna közreadott egy ilyen listát.
Megjegyzés: Meg kell különböztetnünk az index építésének folyamatát és a
keresés folyamatát. Azt sejtem, hogy az indexek építésekor fel lehetne
használni (ha egyáltalán lehet) az egyes rekordokban lévő nyelvkódokat
és a több különböző stop listát (ha vannak); kereséskor azonban csakis
valamilyen összesített, a különböző nyelvek listáiból egyesített stop
lista szerepelhet, és a keresés folyamatában nem lehet figyelembe venni
a rekordokban lévő nyelvkódokat. Az egyesített stop lista használatát
esetleg rugalmasabbá lehet tenni: Bizonyos rendszerekben a kereső
kérdésbe megfelelő jellel (pl. + jellel) ellátva olyan szavakat is
beírhatunk, amelyeket keresni akarunk, bár a stop listában szerepelnek.
Ennek persze csak akkor van értelme, ha az adott szó bekerült az indexbe.
-----
2. Rendezés,
azaz a találati halmaz elemeinek rendezése különböző szempontok szerint.
Most a címek betűrendbe sorolásáról van szó. Mint korábban egyszer,
ismét hivatkozom az
MSZ 3493 : 1982 : Bibliográfiai tételek besorolási szabályai
szabványra. (Sajnos most nincs kezemben; remélem, jól emlékszem.) Ha a
cím ragozatlan névelővel kezdődik, a besoroláskor ezt figyelmen kívül
kell hagyni.
Kérdés: Össze lehetne-e állítani MOKKA-R-ben eme névelők listáját?
Vigyázat: ez nem a stop list, ezt valahogyan másképpen kellene nevezni!
Megjegyzések:
(a) Gondot okoznak pl. a következők:
- függ a nyelvtől, pl. németben "die" a cím elején figyelmen kívül
hagyandó, angolban azonban be kell számítani, pl.: Die hard (film)
- a névelő állhat a címben "főszerepben" is, pl.:
Der..., die..., das... : a német nyelvtan gyakorlati útmutatója / Markó
Ivánné
- a névelő más esete azonos alakú lehet az alanyesettel (de lehet, hogy
ekkor is figyelmen kívül kell hagyni?), pl.:
Der neuen Gedichte anderer Teil / Rainer Maria Rilke
- számnév, névmás azonos alakú lehet egy névelővel, pl.: Egy az Isten.
(b) Tehát esetenként kell eldönteni, hogy a cím első szava valóban
ragozatlan névelő-e vagy valami más.
(c) Enyhítő körülmény: Ha a "névelővel" kezdődő cím első szavát a
rendezéskor figyelembe vesszük, illetve nem vesszük figyelembe, akkor a
mellőzött címalakról utaló készíthető. Pontosabban lásd:
MSZ 3440/4 : 1986 : A bibliográfiai leírás besorolási adatai : címek.
2.8, 2.9 szakasz.
(d) HUNMARC stb.-ben az adott címmező 1., illetve 2. indikátorában
jelezni kell a rendezéskor elhagyandó karakterek számát.
Kérdések: Meg lehetne-e valósítani MOKKA-R-ben a rendezést a fenti
előírások (az idézett szabványok) szerint? Az eseti döntésekhez
segítségül lehetne-e venni a HUNMARC mező megfelelő indikátorát?
Készítsünk-e a mellőzött címalakról utalót, azaz bekerüljön-e a cím az
indexbe névelővel is, és névelő nélkül is (lásd az alábbi megjegyzést)?
Megjegyzés: A rendezés (tehát a jelen 2. pont) fent vázolt problémái
nemcsak a találati halmaz elemeinek rendezésére, hanem - ami sokkal
fontosabb - az index építésére, vagyis az indexben az indextételek
rendezésére, és ezzel a böngészéskor (scan) kinyíló listára is vonatkoznak.
Kérem, gondoljuk meg együtt, vitassuk meg! Üdvözlettel,
Rozsondai Béla
MTA Könyvtára
További információk a(z) bodza-l levelezőlistáról