← Minden írás

Nem a ChatGPT volt a kezdet

A magyar nyelvtechnológia hét évtizede a relés számológéptől az első magyar érvelő modellig.

2025 végén egy alig négymilliárd paraméteres modell került fel a Hugging Face-re az ELTE Informatikai Karának műhelyéből. A Racka-4B-t úgy mutatták be: az első magyar érvelő (reasoning) nyelvi modell. A bejelentés joggal keltett figyelmet - de aki csak a címszót olvassa, könnyen azt hiheti, hogy a magyar nyelvtechnológia története néhány éves. Pedig nem az. Az első magyar számítógépes nyelvészeti eredmények bő hat évtizeddel korábbról, egy debreceni szótárból és egy Budapesten épült, szovjet tervekből másolt számítógépből származnak.

Ez a cikk azt a hét évtizedet járja végig, amely a korai gépi fordítási kísérletektől a mai magyar nagy nyelvi modellekig vezetett. A történet két dologról szól egyszerre: egy meglepően mély és folytonos szakmai hagyományról, és egy éles törésről, amely épp a jelen LLM-korszakban következett be. Mert miközben a magyar nyelvtechnológia tudása és adatvagyona évtizedeken át halmozódott, a mai csúcsmodellek többsége már nem hazai fejlesztésű alaprendszer, hanem nyílt globális modellek - a Qwen és a Llama - magyar adaptációja. A kérdés, amelyre a végén visszatérünk: új korszak ez, vagy egy régi hagyomány új technológiai rétege?

„Malaja”, de nem magyar

A hazai gépi nyelvfeldolgozás története nem egy nyelvészeti ötlettel, hanem egy vasdarabbal kezdődik. 1959. január 21-én adták át az M-3-at, az első hazai elektronikus, Neumann-elvű számítógépet, amelyet az MTA Kibernetikai Kutató Csoportja épített Varga Sándor vezetésével, szovjet dokumentáció alapján - a fejlesztők között ott volt a fiatal Dömölki Bálint is. A gép nevében szereplő „M” egyébként nem a „magyar” szóra utal, hanem az orosz „malaja” (kicsi) rövidítése; a dátum ma a magyar informatika napja. Néhány évvel korábban Kozma László a BME-n már megépítette a MESZ-1-et, egy telefonközponti relékből álló, „nulladik generációs” számológépet, amely még nem volt Neumann-elvű. A számítógép tehát megvolt - a kérdés az volt, mire használják.

A nyelvészet hamar jelentkezett. 1962-ben indult az MTA Számítóközpontjában a Computational Linguistics című folyóirat, az első hazai számítógépes nyelvészeti szakperiodika, 1964-ben pedig megjelent „A matematikai nyelvészet és a gépi fordítás kérdései” című programadó kötet Kalmár László és Telegdi Zsigmond szerkesztésében. A szerzők és előadók között a kor magyar nyelvészetének és matematikájának színe-java megfordult, Hell Györgytől és Kónyi Sándortól Szépe Györgyön át Kiefer Ferencig. A kötet és a folyóirat a hidegháború tudományos lendületét tükrözte: a gépi fordítás akkoriban nemzetközi nagyprojekt volt, és Magyarország idejekorán beszállt.

Itt érdemes az első óvatos pontosítást megtenni, mert a későbbi „elsőség”-állítások végigkísérik majd a történetet. Hell György orosz-magyar gépi fordítási kutatásai valós, de elméleti és részrendszer-szintű munkák voltak - tőmorfémák gépi tárolásáról, elemzési részfeladatokról szóltak -, dokumentált, teljes, működő fordítórendszer azonban nem maradt utánuk. Amikor 1966-ban megjelent a hírhedt amerikai ALPAC-jelentés, amely világszerte visszavetette a gépi fordítás finanszírozását, a hatás Magyarországra is megérkezett: a Számítóközpont gépi nyelvészeti csoportja Dokumentációs Nyelvészeti Csoporttá alakult. A korai lendület megtört, mielőtt teljes rendszerré érett volna.

A szótár, amelyet máig használnak

Ha egyetlen nevet kellene a hazai számítógépes nyelvészet megalapozójaként megnevezni, az Papp Ferencé lenne. A debreceni KLTE professzora az 1960-as években - akkori szóhasználattal „matematikai nyelvészetként” - indította el azt a kutatási irányt, amely a magyar nyelvet számítógéppel, adatként kezelte. Fő műve, A magyar nyelv szóvégmutató szótára 1969-ben jelent meg, és nem akármilyen vállalkozás állt mögötte: Papp az Értelmező Szótár 58 ezer szócikkét dolgozta fel gépi adatelemzéssel, és a teljes, több mint 31 ezer szóból álló főnévi anyagot vizsgálta. A szótár a szavakat fordított betűsorrendben rendezte, így a tövek és toldalékok rendszere áttekinthetővé vált - és az így létrejött adatbázist azóta is, egyre újabb adathordozókra konvertálva, használják a magyar számítógépes szótárépítéshez.

Erről a műről gyakran elhangzik, hogy a világ egyik első számítógépes nyelvi szótára volt. A pontos megfogalmazás fontos: az amerikai Brown Corpus 1961-ben, tehát korábban készült el, így az „első” jelző csak részleges - a magyar nyelvre, illetve a nem angol nyelvek között úttörő - értelemben állja meg a helyét. Ettől azonban Papp teljesítménye nem lesz kisebb. Egy agglutináló nyelv morfológiáját évtizedekkel a számítási kapacitás bősége előtt, lyukkártyák korában formalizálni és gépre vinni: ez olyan szemléletet honosított meg, amely a magyar nyelvtechnológia egész további történetét meghatározta.

A morfológia átka és áldása

Hogy miért lett épp a morfológia a magyar NLP tartós központi problémája, az a nyelv szerkezetéből fakad. A magyar a szótőhöz fűzött toldalékokkal fejezi ki a nyelvtani viszonyokat, így egyetlen tőből szóalakok százai keletkezhetnek. Egy angolra szabott rendszer ezzel nem boldogul: ami angolul néhány szó, az magyarul a ragozott alakok beláthatatlan halmaza. A kutatóknak ezért korán rá kellett kényszerülniük a nyelvi szerkezetek pontos, gépi formalizálására - és ez a kényszer egyben a hazai szakértelem motorja is lett.

Ennek a szemléletnek a kereskedelmi csúcsa a MorphoLogic volt. A céget 1991-ben alapította Prószéky Gábor, Tihanyi László és társaik, és a következő negyedszázadban a magyar nyelvtechnológia szinte minden gyakorlati terméke innen került ki. A Helyes-e? volt az első széles körben használt magyar helyesírás-ellenőrző, amely a Microsoft Word alá is beépült; a HuMor morfológiai elemző-generátor olyan újrahasználható motor lett, amelyet később emMorph néven nyílt formában is újraírtak. A MoBiMouse, az egérrel előhívható azonnali szótár 1999-ben EU IST Prize-jelölést kapott, a MetaMorpho pedig a cég állítása szerint az első működő magyar gépi fordító rendszer volt. A HuMor leíró formalizmusát egyébként hét másik nyelvre - a lengyeltől a spanyolig -, sőt kis uráli nyelvekre (komi, udmurt, manysi, nyenyec, nganaszan) is alkalmazták, a MorphoLogicból kivált Kilgray pedig a memoQ-val nemzetközi fordítószoftver-sikert ért el.

A MorphoLogic 2017-ben megszűnt, és a kereskedelmi mérlegével érdemes óvatosan bánni - de a felhalmozott tudás nem veszett el, hanem az NYTK és a PPKE felé vándorolt. És van egy mélyebb tanulság is. A morfológiai elemzés problémája soha nem tűnt el; csak nevet váltott. Amit a kilencvenes években morfológiának hívtak, az ma a tokenizálás és a fertilitás kérdéseként tér vissza: egy angolra optimalizált tokenizáló a magyar szavakat sok apró töredékre vágja, ami hosszabb, drágább és gyengébb feldolgozást jelent. A mai magyar LLM-ek egyik legfontosabb finomhangolása éppen a tokenizáló magyarra igazítása - vagyis ugyanaz a probléma, amellyel Papp és a MorphoLogic is birkózott, csak más technológiai rétegben.

A láthatatlan évtized: korpuszok

A kétezres évek a magyar NLP „láthatatlan”, de talán legfontosabb korszaka. Ekkor épültek azok a nyelvi erőforrások, amelyek nélkül a mai modellek elképzelhetetlenek lennének - csakhogy egy korpusz építése nem látványos, és nem is gyors. A Szegedi Tudományegyetemen Csendes Dóra, Csirik János, Gyimóthy Tibor és társaik létrehozták a Szeged Korpuszt és a Szeged Treebanket, máig a legnagyobb kézzel annotált magyar nyelvi adatbázist. Az MTA Nyelvtudományi Intézetében Váradi Tamás vezetésével épült a Magyar Nemzeti Szövegtár, a nyelv kiegyensúlyozott referenciakorpusza. A BME Média Oktató és Kutató Központjában Kornai András köréből olyan nyílt eszközök születtek, mint a hunmorph, a Hunglish párhuzamos korpusz és a Magyar Webkorpusz - és innen ered a Hunspell, amelyet ma a világ böngészőinek és irodai programjainak jó része használ helyesírás-ellenőrzésre.

Ez a korszak adta a közösséget is. 2003 óta rendezik Szegeden a Magyar Számítógépes Nyelvészeti Konferenciát (MSZNY), amely azóta a hazai szakma éves seregszemléje - és, mint látni fogjuk, a legújabb modellek bemutatkozásának színtere. Az olyan integrált elemzőláncok, mint a magyarlanc, vagy az olyan statisztikai eszközök, mint a HunPos, ekkor tették a magyart géppel jól feldolgozható nyelvvé.

Aki ma egy magyar LLM-et tanít, az ezeknek a kézzel annotált adatoknak és nyílt eszközöknek az örököse - akkor is, ha erről a modellkártya nem ejt szót.

A szöveg mellett a beszéd is külön ágat hajtott - olyat, amely megérdemelne egy önálló cikket. A BME-n már a hetvenes években elkezdődött a magyar beszédkutatás Gordos Géza vezetésével, később Olaszy Gábor és Németh Géza munkájával; ebből nőtt ki a MultiVox és a ProfiVox beszédszintézis, majd a magyar beszédfelismerés első adatbázisai Vicsi Klára és mások jóvoltából. A beszédtechnológia a maga útján járta be ugyanazt az ívet a szabályalapú megoldásoktól a mély neurális modellekig - a most következő nagy nyelvi modellek története azonban elsősorban a szövegé.

Az első erős magyar agy: a huBERT

A 2010-es évek közepén a magyar NLP is belépett a neurális korszakba: megjelentek a word2vec és fastText szóbeágyazások, amelyek a szavakat sűrű vektorokként ábrázolták, és a nyelvi jelentés egy részét számszerűsíthetővé tették. A valódi fordulópont azonban 2018 után jött, a Google BERT-architektúrájával, amely a szöveget kontextusában értő modelleket hozott. Magyarul ennek az iránynak a kulcsfigurája Nemeskey Dávid Márk lett, aki előbb a magyar nyelvmodellezés benchmark-korpuszait (emLam) és a kilencmilliárd tokenes Webcorpus 2.0-t építette meg, majd 2021-ben bemutatta a huBERT-et.

A huBERT az első magyar BERT-modell volt: 110 millió paraméteres, nulláról, magyar szövegen tanított kontextuális encoder, amely a magyar névelem-felismerésben és más megértési feladatokban felülmúlta a soknyelvű mBERT-et. Apró, de jellemző részlet, hogy a tokenizálója megtartotta az ékezeteket - vagyis a magyar nyelv sajátosságait komolyan vette. Fontos azonban tisztában lenni azzal, mit tud egy ilyen modell: a BERT-jellegű encoder megértésre, osztályozásra, kinyerésre való, nem folyékony szöveg írására. A huBERT nem chatelt és nem fogalmazott - de értett, és ez akkoriban önmagában áttörés volt. A generatív robbanás csak ezután következett.

Jönnek a nagyok - és az elsőség csapdái

2023 a magyar generatív modellek éve volt. Az NYTK és a Digitális Örökség Nemzeti Laboratórium műhelyéből, Yang Zijian Győző, Laki László és Ligeti-Nagy Noémi köréből érkezett a PULI-GPT-3SX, amelyet GPT-NeoX architektúrán, nulláról, 32 milliárd kizárólag magyar szón tanítottak, 6,7 milliárd paraméterrel. Ez volt az első olyan magyar nagy nyelvi modell, amely teljes egészében magyar adatból, a semmiből épült. A PULI-GPTrio ezt egészítette ki egy háromnyelvű - magyar-angol-kínai - változattal, a márka neve pedig a magyar pulikutyára utal.

Itt válik élessé az „első magyar GPT-3” kérdése, mert több, egymással versengő állítás létezik. A HILANCO-GPTX-et - egy kétnyelvű, szintén 6,7 milliárdos modellt az NYTK és a pécsi egyetem együttműködéséből - úgy jelentették be, mint az első GPT-3 típusú magyar modellt. A PULI-GPT-3SX viszont az első kizárólag magyaron, nulláról tanított GPT-3. Mindkét állítás igaz - a saját, pontosan körülírt értelmében. Ez a nyelvtechnológiai „elsőségek” visszatérő tanulsága: szinte mindig számít, hogy magyar fejlesztésű vagy magyar nyelvű, nulláról tanított vagy továbbtanított, kutatási prototípus vagy nyilvános termék, encoder vagy generatív rendszerről van-e szó.

A korszak legnagyobb - és egyben legtanulságosabb - vállalkozása az OTP magyar nyelvi modell programja. A bank 2021 végén, állami támogatással és a SambaNova Systems technológiájával indította el a projektet, dedikált, 7,3 milliárd forintos szuperszámítógéppel, amelyet 2022 elején adtak át. Az ebből született OTP-13B egy 13 milliárd paraméteres, kétnyelvű modell, amelyet a 84 milliárd tokenes Webcorpus3-on és ugyanannyi angol adaton tanítottak. Méretét tekintve ez a legnagyobb magyar fókuszú modell - csakhogy nem nyilvános. Súlyai nem érhetők el, teljesítménye függetlenül nem ellenőrizhető. Van ebben valami sokatmondó: a legnagyobb magyar modell egyben a leginkább láthatatlan is.

A fordulat: a nulláról tanítástól az adaptációig

2024-től a magyar LLM-fejlesztés iránya megváltozott, és ez a cikk egyik központi állítása. A nulláról tanított modellek helyét egyre inkább a nyílt globális alapmodellek magyar adaptációja vette át. Az első jel a PULI LlumiX 32K volt: egy Llama-2-7B-re épülő, magyar szövegen továbbtanított, 32 ezer tokenes kontextusú modell, amely már instrukciókat is követett - vagyis kérdésekre válaszolt, nem csak szöveget folytatott. Hasonló úton járt a SambaNova SambaLingo-Hungarianje (Llama-2 plusz 59 milliárd token magyar adat), majd 2025-ben a PULI-LlumiX-Llama-3.1 és a Qwen 2.5-re épülő PULI Trio Q, az első magyar fókuszú chat-modellek.

Ebbe a sorba illeszkedik a Racka-4B is, amellyel a cikket kezdtük. A modell - amelynek neve a „Regionális Adatokon Célzottan Kialakított Alapmodell” kifejezésből ered - a Qwen3-4B érvelő változatára épül, és LoRA-alapú folytatólagos előtanítással, 160 milliárd tokenen készült az ELTE és a DH-LAB közös munkájában. Valódi eredmény: magyar feladatokon nagyjából a kétszer akkora, 8 milliárdos modellek szintjén teljesít, miközben gyorsabb, és az MSZNY 2026 konferencián a legjobb publikációnak választották. De a pontos kép itt is árnyaltabb a címszónál. Az „első magyar érvelő modell” érvelési képessége nagyrészt a Qwen3 alapmodelltől örökölt, a belső gondolatmenet pedig részben angolul zajlik. A Racka tehát nem a semmiből tanult meg gondolkodni - egy meglévő képességet adaptált magyarra, ügyesen.

Hogy miért az adaptáció és nem a nulláról tanítás lett a fő irány, azt nagyrészt az infrastruktúra magyarázza. A hazai akadémiai LLM-tanítás gerince a debreceni Komondor szuperszámítógép, amely 2022-2023-ban állt üzembe, és nagyjából 264 darab NVIDIA A100 GPU-val mintegy 6 petaflops teljesítményt nyújt. Ez tekintélyes kapacitás - de a kártyák 40 gigabájtosak, és az összeköttetésük sávszélessége korlátozott, ami épp a legnagyobb modellek nulláról tanítását teszi nehézzé. Nem véletlen, hogy a Racka csapata a LoRA-t és a továbbtanítást választotta a from-scratch megközelítés helyett: a módszert itt a rendelkezésre álló hardver alakította. Sőt, maga a PULI-márka is bejárta ezt az utat - a nulláról tanított GPT-3SX-től a Llama- és Qwen-alapú adaptációkig.

Mit mérünk, amikor magyart mérünk?

Egy modell csak annyit ér, amennyit mérni tudunk belőle - és a magyar nyelvű kiértékelés külön történet. Az NYTK 2022-ben mutatta be a HuLU-t (Hungarian Language Understanding), a nemzetközi GLUE és SuperGLUE mintájára épített magyar nyelvmegértési benchmarkot, olyan altaszkokkal, mint a HuCoPA, a HuSST vagy a HuRTE. A HuLU elsősorban a megértést méri, és a tesztcímkéket szándékosan visszatartják, hogy a modelleket ne lehessen „rátanítani” a mérőszámra.

A generatív modellek korában azonban más kérdések merülnek fel, és ezekre az OpenHuEval próbál választ adni - egy 2025-ös, kifejezetten magyar-specifikus LLM-benchmark, amely valós internetes kérdéseken, magyar közmondásokon és kultúraspecifikus feladatokon teszteli a modelleket, jórészt „LLM-as-judge” módszerrel, vagyis egy másik nyelvi modell pontozásával. Ez gyorsabb és skálázhatóbb, de torzíthat is. És itt érdemes józannak maradni: a benchmarkokat fenyegeti a kontamináció (ha a tesztanyag bekerül a tanítóadatba) és az értékelő modell elfogultsága is. A magyar nyelvi kompetencia mérése tehát maga is nyitott kutatási probléma - nem lezárt ügy.

Szuverenitás vagy autarkia?

A magyar LLM-ek körüli közbeszéd egyik visszatérő szava a „szuverenitás”. De mit jelenthet ez egy közepes erőforrású nyelv esetében? Ha teljes hazai önellátást - saját alapmodell, saját tokenizáló, saját infrastruktúra, minden idegen függőség nélkül -, akkor a cél irreális és pazarló. A nagy nyelvi modellek fejlesztése globális vállalkozás; egy magyar méretű nyelvközösségnek minden alapmodellt a semmiből felépíteni nemcsak megfizethetetlen, de értelmetlen is, amikor a nyílt Qwen és Llama adaptálása gyorsabb és jobb eredményt ad. A szuverenitás értelmesebb olvasata nem az autarkia, hanem a hozzáférés, a kompetencia és az ellenőrizhetőség: hogy legyen saját, ellenőrzött korpuszunk, tokenizálónk, benchmarkunk és infrastruktúránk, és hogy értsük, mit és hogyan építünk.

Ebből a szempontból a magyar nyelvtechnológia helyzete egyszerre erős és törékeny. Erős, mert a Papp Ferenc óta felhalmozott adat- és tudásvagyon valódi - a kézzel annotált korpuszok, a nyílt morfológiai eszközök, a benchmarkok és a működő kutatói közösség nélkül a mai modellek nem léteznének. És itt érdemes eloszlatni egy tévhitet: a nyelvészek nem lettek feleslegesek az LLM-korszakban. Épp ellenkezőleg - a jó tanítóadat, a megbízható benchmark és a magyar nyelvi minőség értékelése felértékelte a szerepüket. Törékeny viszont a helyzet azért, mert a legnagyobb hazai modell zárt, a csúcsmodellek külső alapokra épülnek, és a számítási kapacitás is szűkös.

A kapacitás kérdésében van mozgás. A Komondor mellé a KIFÜ a 20 petaflopsos Leventét tervezi, 2026 szeptemberétől pedig nyolc egyetemen indul mesterséges intelligencia mesterszak, részben épp erre az infrastruktúrára építve - vagyis a rendszer az utánpótlásra és a kapacitásra is figyel. A nyitott kérdés az, hogy ez a kapacitás saját, ellenőrizhető nyelvtechnológiát épít-e, vagy elsősorban a globális modellek fogyasztását teszi hatékonyabbá. A kettő nem zárja ki egymást, de nem is ugyanaz.

A történet íve mindenesetre világos. A magyar nyelvtechnológia nem a ChatGPT-vel kezdődött, és nem is a PULI-val: egy 1969-es szótárral és egy oroszból másolt számítógéppel indult, és máig tart. A folytonosság azonban nem egy megszakítatlan intézményi vonalban él tovább, hanem a felhalmozott adatban, eszközben és tudásban. Papp Ferenc szóvégmutató szótárát máig használják a magyar szótárépítéshez - hatvan év, néhány paradigmaváltás és egy érvelő modell távolságában. Ez a leghosszabb, és talán a legfontosabb magyar nyelvi adatlánc.

CtrlPlaneTovábbi írások