Szovjet táborok magyar foglyainak adatbázisa


Szovjet táborok magyar foglyainak adatbázisa
Olvasási idő: 2 perc

Magyarország sok évtized után 2019-ben kapta meg Oroszországtól a magyar hadifoglyok és civil elhurcoltak adatait.

A szovjet táborok magyar foglyainak adatbázisa hozzáférhetősége és megszerzése már önmagában is komoly eredmény. Ám a Nyelvtudományi Kutatóközpont (NYTK) kutatóinak érdeme, hogy a szovjet táborok magyar foglyairól szóló, idén februárban publikussá tett adatbázis magyar nyelvű lehet. A cirill betűs adatbázis magyarra történő automatizált átültetését az ELKH Nyelvtudományi Kutatóközpont kutatói végezték Sass Bálint vezetésével.

A mintegy 682 000 személy adatainak feldolgozását követően 2021. február 25-én nyílt meg a Magyar Nemzeti Levéltár által üzemeltetett adatbázis. Mivel az adatbázis teljesnek tekinthető, jelentős forrás a kutatás számára. Emellett nagyon fontos a nagyközönség számára is. Hiszen az érdeklődők megismerhetik a rendelkezésre álló információkat, megtalálhatják a szovjet táborokat megjárt családtagokat, rokonokat. 

A Magyar Nemzeti Levéltár 2019-ben közel 200 millió forintért vásárolta meg az Orosz Állami Hadilevéltártól a magyar hadifogoly és elhurcolt civil személy alapvető adatait tartalmazó kartonok digitalizált, szkennelt képét, valamint az ebből készített adatbázist. Ez az adott személyekhez köthető legfontosabb információkat tartalmazza. Ilyen a fogolyként nyilvántartott személy vezeték- és keresztneve, orosz szokásnak megfelelően az apai keresztneve, rendfokozata, a születés helye és ideje, a fogságba esés helye és ideje, a távozás ideje és az elbocsátó tábor, valamint – amennyiben az illető személy elhunyt – az elhalálozás időpontja.

A kartonokon természetesen minden cirill betűkkel szerepel, tehát nemcsak az orosz nyelvű, hanem a magyar nyelvű adatok is.

A feldolgozás során az jelentette a nyelvi problémát, hogy a magyar foglyok által bediktált magyar nyelvű személyes adatok cirill betűs formában álltak rendelkezésre. Mégpedig úgy, ahogyan azt az adatokat felvevő – általában orosz – katona hallás után éppen leírta. Ráadásul az adatok tovább torzultak, amikor a 2010-es évek során az orosz kollégák a kartonok alapján elkészítették az adatbázist. Ekkor a 70 évvel korábbi kézírás alapján rögzítették az általuk nem értett magyar nyelvű, de cirill betűkkel leírt szövegeket.

A feladat tehát a „Ковач Йожеф → Kovács József” jellegű transzkripció megvalósítása volt. A nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást. Tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például: Цилбауер  → Zielbauer, Дейло → Béla, Саотморской → Szatmár, Гонграмеде → Csongrád, vagy Кишкупфьилстьгаза → Kiskunfélegyháza. Sok esetben több egyenrangú lehetséges megoldás is adódik. Ezek közül már nem lehet vagy nem érdemes automatizált módon választani, például: Эрин → Ernő; Ervin; Erik.

A munkálatok részleteiről az idei Magyar Számítógépes Nyelvészeti Konferencián elhangzott előadásból, illetve a kapcsolódó publikációból, továbbá a 2020-as Magyar Tudomány Ünnepén elhangzott előadásból lehet tájékozódni a szovjet táborok magyar foglyainak adatbázisa tekintetében.

Az automatikus átíró-helyreállító eszköz megtalálható a github-on.

Érdemes megtekinteni az Ez itt a kérdés 2021. február 22-i adását a 13. perctől kezdve. A műsorban bejátszott archív felvételen egy volt hadifogoly emlékezik vissza arra, hogy mennyi minden múlik azon, hogy az ember Hegyi vagy esetleg Gegyi néven szerepel a névsorban. A h-g csere az egyik tipikus elírás. Ez a rövid részlet szemléletesen mutatja be azt a nyelvi problémát, amelynek a kezelésére a Nyelvtudományi Kutatóközpont munkatársai vállalkoztak. A 2021. február 25-én, a kommunizmus áldozatainak emléknapján megnyílt, szovjet táborok magyar foglyainak adatbázisa szabadon kereshető, nyilvános adatbázis a Magyar Nemzeti Levéltár oldalán érhető el.



Previous A NASA és az USAF állatai a világűrben – a majmok
Next Lovász László kapta a matematikusok Nobel-díjaként jegyzett Abel-díjat

No Comment

Leave a reply

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

tíz + 7 =