Mesterséges intelligencia segíti a kézírás-felismerést


Mesterséges intelligencia segíti a kézírás-felismerést
AI generált illusztráció
Olvasási idő: 4 perc

Negyedszázada ismerjük az optikai karakterfelismerő programokat, amelyek segítségével a nyomdából kikerült dokumentumok – könyvek, folyóiratok, napilapok stb.– tartalmát számítógéppel teszik olvashatóvá és kereshetővé.

Ennek köszönhetően az elmúlt évtizedekben hatalmas mennyiségű szöveg került az internetre, amelynek eredményeként a keresőmotorok segítségével rövid időn belül megtalálhatjuk a korábban nyomtatásban megjelent közleményeket. Az utóbbi évekig a kézírással lejegyzett szövegek számítógépes feldolgozása háttérbe szorult, mert a megfelelő technológia nem állt rendelkezésre. Túlzás nélkül állíthatjuk, hogy a kézírás-felismertetés jó ideje az egyik legnagyobb technológiai kihívás, amelynek jelenlegi sikerét hathatósan segíti a mesterséges intelligencia (MI).

A kézírás-felismerést széles körben HTR-nek hívják az angol megnevezése, a Handwritten Text Recognition akronímája alapján. A technológia mostanára már bebizonyította: képes a kézírásos szövegeket felismerni és számítógéppel olvasható karaktersorozattá konvertálni. A mesterséges intelligencia technikái közül a kézírás digitalizálásában és értelmezésében különösen fontos szerepet kap a bonyolult mintázatok felismerésére képes mélytanulás és a számítógépes látás.

A mély-, vagyis többrétegű tanulásnak döntő szerepe van a HTR modellekben, amelyek a mesterséges intelligenciának éppen azt a tulajdonságát használják ki, hogy az MI tanítható. A jó eredmény egyik feltétele, hogy a betanításra szolgáló minta elég nagy legyen, ugyanis minél több visszajelzést kap a szoftver, annál pontosabb lesz az eredmény. Könnyű belátni, hogy egy tíz-tizenkét millió ember által beszélt – köztük a magyar – nyelv nemcsak az anyagi források, de a tanítóanyag nagysága is miatt hátrányba kerül a milliárdos vagy sok száz milliós népesség által használt nyelvhez képest.

A kézírásos szöveg felismerésének fő kihívásai:

  • A karakterek elkülönítésében és felismerésében a legnagyobb nehézséget a kurzív kézírás, vagyis a folyóírás okozza.
  • Az egyes emberek kézírási stílusa, jellemző vonalvezetése jelentősen eltér egymástól.
  • Az egyéni folyóírást óriási változékonyság jellemzi, de még ugyanannak a személynek a kézírásában is számos következetlenség fordulhat elő.
  • A kéziratokban gyakran előfordul, hogy az írott szöveg nem szigorúan egyenes vonalú, ez pedig a számítógép számára megnehezíti a szöveg értelmezhetőségét.

A kézírás-felismerés azonban nemcsak hatalmas kihívást, de óriási üzletet is jelent, mivel a megoldás nemcsak a kulturális örökség feldolgozása szempontjából fontos, de kulcsfontosságú a bank- és biztosítási szektor, az egészségügy és más ágazatok számára.

Ahogy említettük, a kézírás-felismerő MI modelleket elsősorban a nagy világnyelvekre fejlesztik, ezért a magyar nyelvű kéziratos örökség komoly hátrányba került. Hazánkban alig néhány digitális bölcsészeti műhely foglalkozik kézírás-felismertetéssel. Számukra komoly gondot okozott, amikor az általuk sikeresen adaptált Transkribus alkalmazás uniós támogatása megszűnt, és attól kezdve a nagyobb léptékű projekteknek borsos árat kell fizetniük az alkalmazás használatáért. Ismerve a magyar könyvtárak, levéltárak és múzeumok anyagi helyzetét, ez azt jelenti, hogy a drága alkalmazásokkal nem tudják megoldani a gyűjteményükben lévő kéziratok kereshetővé tételét. A Digitális Örökség Nemzeti Laboratórium (DH-LAB) ennek a problémának a megoldása érdekében fejlesztett ki egy kézírás-felismerő modellt.

Arany János akadémiai kéziratai és a mesterséges intelligencia

A DH-LAB a modell betanításához Arany János akadémiai iratait választotta. A döntés indoka részben az volt, hogy az Arany-bicentenáriumnak köszönhetően sok hozzá köthető kéziratot sikerült beszkennelni, nagyfelbontású képfájlokat készíteni róluk. A választás másik indoka pedig az volt, hogy ezeknek a kéziratoknak a feldolgozása nemcsak nagy költőnk MTA főtitkári tevékenységébe enged mélyebb betekintést, de tágabb értelemben jól leképezi az 1860-as és 1870-es évek hazai tudományos, kulturális és művészeti életét.    

Arany János 1865-től 1877-ig töltötte be a Magyar Tudományos Akadémia főtitkári szerepét. Sokrétű adminisztratív munkája során közel harmincezer oldal keletkezett. Az iratok egy része Arany, más része a titkárság munkatársainak kézírását tartalmazza. De vannak olyan iratok is, amelyek nem is egy kéztől származnak.

Az alábbiakban Arany akadémiai kéziratai közül mutatunk be három digitális fakszimilét.

Ezek láttán laikusként is elgondolkodhatunk a számítógépes feldolgozás előtt álló nehézségek megoldásán.

Arany János akadémiai főtitkári irataiból; az Igazgató Tanács 1871. nov. 27-én tartott ülése jegyzőkönyvének kiírt cikkelye – forrás: Digiphil.hu Kézirat kereső
Arany János akadémiai főtitkári irataiból; az Igazgató Tanács 1871. nov. 27-én tartott ülése jegyzőkönyvének kiírt cikkelye – forrás: Digiphil.hu Kézirat kereső

A felismertetés során nemcsak egyes rövidítések – mint például a nmltsga (nagyméltósága) – feloldása, de főleg az utólag beszúrt kiegészítés is nehezen értelmezhető a számítógép számára.

Arany János levele Toldy Ferencnek, 1861 – forrás: Digiphil.hu Kézirat kereső
Arany János levele Toldy Ferencnek, 1861 – forrás: Digiphil.hu Kézirat kereső

Az irat a költő által felsorolt életesemények listáját tartalmazza, amelyeket ő maga így vezet föl: „1856 juliustól fogva nem sok történt velem”. A karakterfelismerő szoftver biztosan nem áll meg elgondolkodni azon, hogy az Arany szerint „nem sok” történésben az akadémia taggá választás, az akadémiai székfoglaló megtartása és más hasonló események is szerepelnek. Érdekes lenne tudni, a számítógép a mélytanulás során tulajdonít-e jelentőséget annak, hogy egyes évszámok alá vannak húzva, mások pedig nincsenek…

Arany János levele gróf Dessewffy Emilnek

Arany János levele gróf Dessewffy Emilnek, 1865 – forrás: Digiphil.hu Kézirat kereső
Arany János levele gróf Dessewffy Emilnek 1. és 2. oldal, 1865 – forrás: Digiphil.hu Kézirat kereső

Egy ember számára azonnal érthető, hogy Arany ugyanannak a papírlapnak a két oldalára írta az Akadémia elnökének szóló levelét, és a tinta átlátszik a másik oldalon. A számítógép számára azonban elő kell készíteni az iratot, hogy a túloldalról átlátszó tinta ne zavarja meg a szövegfelismerést. Az előkészítés (szegmentálás) során azt is jelezni kell, hogy az első oldalon olvasható szöveg egy része eltér az egyenes vonaltól.

Társadalmi Innovációs Díjban részesült a kéziratos kulturális örökség feldolgozására szolgáló fejlesztés

Hatalmas mennyiségű kézírásos dokumentum vár a magyar nyelvű kulturális örökséget őrző közintézményekben digitalizálásra, kereshetővé tételére. A DH-LAB számára egyértelművé vált, hogy a magyar nyelvű kéziratok tömeges digitalizálására szolgáló modellre van szükség. Mégpedig olyanra, amely a közgyűjtemények számára szabadon átadható, nyílt forráskódú eszközökre épül. Az általuk kifejlesztett kézírás-felismerő modellel sokszor tízmillió kéziratoldalt lehet majd feldolgozni, így végre ezek is a digitalizált kulturális örökség részévé válhatnak.

A projekt során keletkezett technológiai know-how szorosan kapcsolódik a kulturális örökség MI alapú feldolgozásának európai trendjeihez. A nyílt tudományosság elveinek megfelelő kézírás-felismerő modellt saját hardver környezetben, intézményi összefogással dolgozták ki. A kifejlesztett módszertant természetesen nemcsak a kéziratos kulturális örökség digitalizálására, hanem a piaci területen összegyűlt kéziratok MI alapú feldolgozására is lehet majd alkalmazni.

A Kulturális és Innovációs Minisztérium az általa alapított Társadalmi Innovációs Díjat évente adományozza – többek között – együttműködésre alapuló, társadalmi szükséglet kielégítésére irányuló, nemzetközileg is adaptálható új ötlet kifejlesztéséért és megvalósításáért.

Ebben az évben az Arany János akadémiai hivatali iratainak feldolgozására irányuló projekt részesült az innovációs díjban. A díjjal a fejlesztést irányító DH-LAB mellett a HUN-REN BTK Irodalomtudományi Intézet, a Miskolci Egyetem, valamint az ELTE BTK Történettudományi Intézet Digitális Bölcsészet Tanszék szakértőinek, illetve az ELTE Informatikai Kar Mesterséges Intelligencia Tanszék hallgatóinak teljesítményét ismerték el. A projekt vezetője Palkó Gábor, a vezető szakértők a HUN-REN Bölcsészettudományi Kutatóközpontból (HUN-REN BTK) Fellegi Zsófia és Bobák Barbara, a DH-LAB részéről Nemeskey Dávid, Fekete Norbert és Szekrényes István.

Arany akadémiai főtitkári kéziratainak mesterséges intelligenciával segített feldolgozását a 2024. november 21. és 23. között megrendezett World Science Forum and Science Expo rendezvényen mutatták be a nagyközönségnek.



Previous Biológiai gyógyszerek az artritiszek és az oszteoporózis kezelésében
Next Mit keres a Mars egy Méhkasban?

No Comment

Leave a reply

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

tíz − 7 =