В стремежа си да разработи изкуствен интелект, който може да разбира набор от различни диалекти, Meta пуска на пазара AI модела SeamlessM4T, който може да превежда и транскрибира близо 100 езика в текст и говор.
Целта на инструмента е да помогне на хората, които говорят различни езици, да общуват помежду си по-ефективно. Наличен в отворен код заедно със SeamlessAlign (нов набор от данни за превод), Meta твърди, че SeamlessM4T представлява „значителен пробив“ в своята област.
Какви са функционалностите на новия AI преводач?
Сред характеристиките на SeamlessM4T, рекламирани в промоционалния блог на Meta, присъства твърдението, че моделът може да извършва:
- разпознаване на реч – потребител му дава аудио реч и той я преобразува в текст;
- превод на реч в текст – моделът превежда изговорен звук в текст на различен език;
- превод на говор – потребител подава аудио говор и той извежда преведено аудио;
- превод на текст в текст – подобно на Google Translate;
- превод на текст в говор – подава му се текст и той го превежда и изговоря на друг език.
Всяка от функциите за превод на текст поддържа близо 100 езика, а функциите за аудио превод поддържат 36 езика.
В съобщението за SeamlessM4T Meta споменава Вавилонската риба – измислена риба от класическата научно-фантастична поредица на Дъглас Адамс, която, когато бъде поставена в ухото, може незабавно да преведе всеки говорим език:
„Изграждането на универсален езиков преводач, като измислената Вавилонска риба в „Пътеводител на галактическия стопаджия“, е предизвикателство, тъй като съществуващите системи за реч към реч и реч към текст покриват само малка част от езиците в света. Но ние вярваме, че работата, която обявяваме днес, е значителна стъпка напред в това пътуване.“, заявяват от компанията.
Как е проектирана технологията?
Както обикновено, от компанията са пестеливи откъм информация за това откъде са взели данните за обучение. Посочва се, че текстовите данни идват от „същия набор от данни, внедрен в NLLB“ (набори от изречения, извлечени от Wikipedia, новинарски източници, сценарии на речи и други източници и преведени от професионални човешки преводачи). Данните за речта на SeamlessM4T идват от „4 милиона часа необработено аудио, произхождащо от публично достъпно хранилище на обходени уеб данни“, от които 1 милион часа са на английски, според официалните източници. Meta не уточнява кое е хранилището или произхода на използваните аудио записи.
Meta далеч не е първата AI компания, която предлага инструменти за превод с машинно обучение. Google Translate използва техники за машинно обучение от 2006 г., а големите езикови модели (като GPT-4) са добре известни със способността си да превеждат между езици. Но наскоро технологичните гиганти започнаха промени по отношение на аудио обработката. През септември OpenAI пусна свой собствен модел за превод на реч в текст с отворен код, наречен Whisper, който може да разпознава реч в аудио и да я превежда в текст с високо ниво на точност.
SeamlessM4T надгражда тази тенденция, като разширява мултимодалния превод на много повече езици. Освен това Meta казва, че „единственият системен подход“ на SeamlessM4T е монолитен AI модел вместо множество модели, комбинирани във верига и именно това намалява грешките и повишава ефективността при процеса на превод.