célunk
Egy új magyar Értelmező szótár
létrehozása.
A szótár egy egymilliárd szavas szövegkorpusz alapján,
korpuszvezérelt módszertannal,
a manuális munka minimalizálásával készül.
eredményeink
Karakteralapú LSTM nyelvmodell. Ez a kis erőforrásigényű, mindössze 11 millió paraméteres nyelvmodell reményeink szerint szövegek különféle karakterszintű hibáinak felismerésére és javítására lesz alkalmas. Az első vizsgálat azt mutatja, hogy a sorvégi kötőjelek helyes visszaalakításának problémáját 99,2%-os pontossággal oldja meg.
Kód, modellek és kiértékelés hozzáférhető a github
-on.
Igekötő-kapcsoló.
Magyarban az igekötő tapadhat vagy
el is
válhat,
a szótárban viszont az igekötős igék egy egységet képeznek.
Létrehoztunk egy olyan
eszközt,
amely az igekötőket
automatikusan a hozzájuk tartozó igéhez kapcsolja.
Segítségével bármely magyar korpuszban könnyen
kereshetővé tehetjük az igekötős igék összes alakját.
Szabadon elérhető az
e-magyar
nyelvfeldolgozó rendszer
emPreverb
moduljaként, a hozzá kapcsolódó összetett szavakat tagokra bontó
emCompound
modullal együtt.