A biológiai képfeldolgozás problémái

Olvasási idő: 3 perc

Ha a világ országainak GDP-jét úgy mérnénk, hogy minden állam kicsit mást értene a közgazdasági mutató definíciója alatt, akkor világviszonylatban akár Magyarország GDP-je is lehetne a legnagyobb.

A mesterségesintelligencia-alapú képi adatfeldolgozás félreértései tehát ahhoz hasonlíthatók és olyan volumenűek, mintha minden ország másként mérné a GDP-t. A biológiai képfeldolgozás területén a mesterséges intelligenciát alkalmazó algoritmusok összehasonlító mutatóit rendszerszinten félreértelmezik. Ez pedig táptalaja annak, hogy mindenki a saját módszereit tüntesse fel legjobbként. A Magyar Kutatási Hálózat Szegedi Biológiai Kutatóközpont (SZBK) bioinformatikusai – Horváth Péter és csoportja – e meglepő és általánosan figyelmen kívül hagyott gyakorlati problémára világítanak rá.

A gyors és hatékony adatfeldolgozáshoz ma már nélkülözhetetlen az automatizálás. Ezt mesterséges intelligenciára (MI) és mélytanulásra épülő algoritmusok teszik lehetővé. A biológiai képfeldolgozás MI-alapú átalakulásának köszönhetően képesek vagyunk egy-egy komplex biológiai mintáról sejtszinten, az egyes sejtekre lebontva információt kapni. A képelemzésre használt algoritmusok minden egyes mintát a róluk készült több százezer vagy milliónyi mikroszkópos felvétel kiértékelésével dolgozzák fel. Precízen osztályozva sok milliárdnyi sejtet, és feltárva a mintában előforduló sejtszintű eltéréseket. Ez a rákdiagnosztikában és a személyre szabott gyógyászatban is döntő jelentőségű.

A terület ma rendkívül kompetitív: bioinformatikusok tízezrei dolgoznak egyre jobb – mind precízebb és hatékonyabb – módszerek kifejlesztésén.

Ugyanakkor az, hogy melyik a „legjobb”, értékelés- és feladatfüggő! Illetve a választott módszer meghatározza, mit és hogyan vagyunk képesek felfedezni a vizsgált biológiai mintában. Ahhoz, hogy a különféle módszereket össze tudjuk hasonlítani, és ennek alapján kiválaszthassuk az adott feladatra legmegfelelőbbet, valamilyen kvantitatív mutatót kell használnunk. Bár a szakirodalom pontosan definiálja az összehasonításra alkalmas metrikákat, ezek definíciójának értelmezése korántsem egységes.

Hirling Dominik szerint előfordul, hogy akár 5-6 különböző interpretációja is van egy adott fogalomnak. A fenti szemléletes példával élve: olyan ez, mintha minden ország némiképp mást értene a GDP definíciója alatt, így amíg az egyik értelmezés szerint az Egyesült Államok áll az első, Kína a második és Japán a harmadik helyen, addig egy másik értelmezés szerint az előbbi rangsor ötödik helyén álló India ugorhatna a vezető pozícióba, az USA pedig a negyedik helyre kerülne.

Egy szegedi kutatócsoport megvizsgálta, milyen következményekkel jár, ha a biológiai képfeldolgozásra használt különféle algoritmusokat az összehasonlításukra alkalmas mutatók más-más interpretációja szerint vetik össze egymással. Ehhez egy biológiai képfeldolgozásra fókuszáló informatikai világversenyhez (Data Science Bowl, DSB) nyúltak vissza. Itt közel négyezer csoport mérte össze a tudását. A feladat egy olyan mikroszkópos képelemző szoftver fejlesztése volt, amely az algoritmus által még soha nem látott képeken is képes minden egyes sejtet megtalálni. A feladatra kidolgozott algoritmusokat egy vagy több összehasonlító mutató szerint értékelte a versenybizottság. De mint kiderült, az eredmény és a versenyzők rangsora jelentősen módosul, ha egy adott metrikára a választottól eltérő, de szintén a szakirodalomban megtalálható interpretációt használunk.

Az adatfeldolgozó algoritmusok között csak akkor lehet egy adott szempont szerint reálisan különbséget tenni, ha az összehasonító metrikákat standardizáljuk,

és ennek megfelelően döntjük el, hogy a felhasználás céljára melyik a legoptimálisabb. Ez azért is lenne fontos, mert a biológiai képfeldolgozás ma már nélkülözhetetlen az orvosi diagnosztikában és a személyre szabott gyógyászatban. A probléma gyakorlati jelentősége messze nem elhanyagolható! Hiszen ha nem a célnak legmegfelelőbb algoritmust választjuk, nem biztos, hogy kellő hatékonysággal nyerünk ki információt a mintából. Vegyük példaként az onkológiát, ahol nem elég felfedezni a daganatos sejteket a szövetmintában – a kórfolyamat előrehaladtával egyre nagyobb hangsúlyt kap a progresszió során megváltozott tumorsejtek felderítése és ezek arányának megállapítása, mert érdemben befolyásolják a választandó terápiát.

E gondolatkörhöz szorosan kapcsolódik Hirling és Horváth egy szintén nemrég publikált módszerfejlesztése (Comput Struct Biotechnol J. 2022;21:742–750), amely a sejtek alakját leíró matematikai modell beépítésével növeli a biológiai képfeldolgozásra szolgáló, MI-alapú algoritmus hatékonyságát. Ha az algoritmus nem „vakon keresgél” a minta képpontjai között, hanem előre tudja, milyen alakzatokra „fókuszáljon”, a mesterséges intelligencia jobban tud tanulni, ami végeredményben hatékonyabb képanalízist eredményez.