Több tucat nyelv fordítására és átírására képes a Meta kedden bejelentett új mesterségesintelligencia-modellje, ami a valós idejű kommunikáció minőségét javíthatja a különféle nyelvi szolgáltatásokban.
A cég elmondása szerint világ, amelyben élünk, még soha nem volt ennyire összekapcsolva, így az emberek több többnyelvű tartalomhoz férhetnek hozzá, mint valaha. Ez azt is egyre fontosabbá teszi, hogy bármilyen nyelven kommunikálni és megérteni tudjuk az információkat, az internet segítségével.
A SeamlessM4T, az első minden egyben multimodális és többnyelvű AI fordítási modellt, amely lehetővé teszi, hogy az emberek könnyedén kommunikáljanak beszéd és szöveg segítségével különböző nyelveken.
A SeamlessM4T támogatja:
- Beszédfelismerés közel 100 nyelven
- Beszédből szövegbe fordítás közel 100 bemeneti és kimeneti nyelven
- Beszédből beszédbe fordítás, közel 100 bemeneti nyelv és 36 (köztük az angol) kimeneti nyelv támogatása.
- Szövegből szövegbe fordítás közel 100 nyelven
- Szövegből beszédbe fordítás, közel 100 bemeneti nyelv és 35 (köztük az angol) kimeneti nyelv támogatásával.
A nyílt tudományhoz való hozzáállásuknak megfelelően a SeamlessM4T-t kutatási licenc alatt adják ki nyilvánosan a Metánál, hogy a kutatók és fejlesztők építhessenek erre a munkára. Emellett közzéteszik a SeamlessAlign metaadatait is, az eddigi legnagyobb nyílt multimodális fordítási adathalmazét, amely összesen 270 000 órányi bányászott beszéd- és szövegillesztést tartalmaz.
Egy olyan univerzális nyelvi fordító megalkotása, mint a Galaxis útikalauz stopposoknak című könyvben szereplő fiktív Bábel-hal, nagy kihívást jelent, mivel a meglévő beszédből beszédbe és szövegből beszédbe fordító rendszerek a világ nyelveinek csak egy kis részét fedik le.
A Metánál úgy vélik azonban, hogy a bejelentett munkájuknak jelentős előrelépés ezen az úton.
A különálló modelleket használó megközelítésekkel összehasonlítva a SeamlessM4T egyetlen rendszerre épülő megközelítése csökkenti a hibákat és a késedelmeket, növelve a fordítási folyamat hatékonyságát és minőségét. Ez lehetővé teszi, hogy a különböző nyelveket beszélő emberek hatékonyabban kommunikáljanak egymással.
A SeamlessM4T az általuk és mások által az évek során az univerzális fordító létrehozására irányuló törekvéseken elért fejlesztésekre épül. Tavaly kiadták a No Language Left Behind (NLLB) nevű, 200 nyelvet támogató szövegről szövegre történő gépi fordítási modellt, amelyet azóta a Wikipédiába is integráltak, mint az egyik fordítószolgáltatót.
Megosztottuk az univerzális beszédfordítónk demóját is, amely az első közvetlen beszédből beszédbe fordító rendszer volt a hokkien nyelvhez, egy olyan nyelvhez, amelynek nincs széles körben használt írásrendszere. Az év elején pedig bemutattuk a Massively Multilingual Speech-et, amely több mint 1100 nyelven nyújt beszédfelismerő, nyelvazonosító és beszédszintetizáló technológiát - írta a Meta.
A SeamlessM4T mindezen projektek eredményeire támaszkodik, hogy lehetővé tegye az egyetlen modellből származó többnyelvű és multimodális fordítási élményt, amelyet a legkorszerűbb eredményekkel, a legkülönfélébb beszélt adatforrásokra építettek.
Ez csak a legújabb lépés a folyamatos erőfeszítéseinkben, hogy olyan AI-alapú technológiát hozzanak létre, amely segít összekötni az embereket a különböző nyelvek között. A jövőben azt szeretnék feltárni, hogy ez az alapmodell hogyan tesz lehetővé új kommunikációs képességeket - végső soron közelebb visz minket egy olyan világhoz, ahol mindenkit meg lehet érteni.
A SeamlessM4T modell esetében a Meta kutatói tanulmányban szögezték le, hogy a több mint 4 millió órányi hangképzési adatokat nyilvánosan elérhető hangtárakból gyűjtötték be, a szöveges adatok pedig olyan tavaly létrehozott adatkészletekből származnak, amelyek a Wikipédiáról és a kapcsolódó webhelyekről gyűjtöttek tartalmakat.
További tech cikkjeinkért kattints ide!
A további tippeket pedig itt gyűjtöttük össze