time to rilex
célunk
Egy új magyar Értelmező szótár létrehozása. A szótár egy egymilliárd szavas szövegkorpusz alapján, korpuszvezérelt módszertannal, a manuális munka minimalizálásával készül.
A Magyar szerkezettár megalkotása a K 147452 OTKA pályázat keretében. Részletek: https://nytud.hu/palyazat/magyar-szerkezettar
eredményeink
OCR-hibák. 47 millió (!) OCR-hiba gyakorisági listája 900 millió szavas magyar korpusz alapján. Implementáció és teljes hibalisták hozzáférhetők a github-on.
Karakteralapú LSTM nyelvmodell. Ez a kis erőforrásigényű, mindössze 11 millió paraméteres nyelvmodell reményeink szerint szövegek különféle karakterszintű hibáinak felismerésére és javítására lesz alkalmas. Az első vizsgálat azt mutatja, hogy a sorvégi kötőjelek helyes visszaalakításának problémáját 99,2%-os pontossággal oldja meg. Kód, modellek és kiértékelés hozzáférhető a github-on.
Igekötő-kapcsoló. Magyarban az igekötő tapadhat vagy el is válhat, a szótárban viszont az igekötős igék egy egységet képeznek. Létrehoztunk egy olyan eszközt, amely az igekötőket automatikusan a hozzájuk tartozó igéhez kapcsolja. Segítségével bármely magyar korpuszban könnyen kereshetővé tehetjük az igekötős igék összes alakját. Szabadon elérhető az e-magyar nyelvfeldolgozó rendszer emPreverb moduljaként, a hozzá kapcsolódó összetett szavakat tagokra bontó emCompound modullal együtt.
korpuszok
https://mnsz2-ud.nytud.hu Az MNSZ2 tisztított és függőségileg elemzett változata.
https://corpus.rilex.nytud.hu Egyéb szabadon hozzáférhető korpuszaink itt érhetők el.
A korpuszok a NoSketchEngine korpuszkezelő rendszer révén kereshetők. A használt docker verzióért köszönet az ELTE-DH-nak.
támogatás
Értelmező kéziszótár online felület. https://eksz.nytud.hu
Magyar Nagylexikon online felület. https://mnl.nytud.hu
Magyar szótárbibliográfia. https://rilex.nytud.hu/szotarbib
MNSZ2 segítővideók. Iratkozzon fel a @magyarnemzetiszovegtar youtube-csatornára!
munkatársak
Simon László kutatócsoport-vezető,
Kalivoda Ágnes, Lipp Veronika, Pethő Gergely, Sass Bálint
korábbi munkatársak
Vadász Noémi
kód
github.com/ril-lexknowrep
© 2020–2024 • Lexikai tudásreprezentáció kutatócsoport