Meta’s Seamless AI не носи поблиску до универзалниот преведувач

Замислете да разговарате со кој било во светот, на кој било јазик, и да ги слушате нивните зборови со вашиот глас и тон. Токму тоа го очекуваат луѓето од алатките за AI превод, според истражувањето на Meta од 2023 година со 34 говорници на шпански и мандарински во САД.

prevod-2902-fi

Извор: Freepik

Водени од оваа визија, Meta формираше тим од над 50 истражувачи за да изгради нова генерација на AI преводен систем наречен Seamless.

Предизвикот: Преведување на говор, а не само на текст

Повеќето AI системи за преведување денес се фокусираат на текст, благодарение на огромната количина на повеќејазични пишани податоци достапни на интернет. Обединетите нации и Европскиот парламент имаат огромни бази на професионално преведени документи што им помагаат на овие системи, се вели во статијата на ArsTechnica.

Сепак, преводот на говор е многу потежок. За разлика од текстот, нема доволно усогласени аудио податоци—посебно за поретки јазици. Постоечките решенија користат чекор-по-чекор пристап:

  1. Претворање на говорот во текст.
  2. Превод на текстот.
  3. Претворање на преведениот текст назад во говор.

Овој метод создава грешки што се насобираат и често резултира со слаб, нереално временски превод. Некои AI алатки можат да преведуваат говор на англиски, но не и обратно, што го ограничува вистинскиот разговор.

Нов пристап: Наоѓање универзален јазик

За да го реши овој проблем, тимот на Meta се инспирираше од теоријата на Ворен Вивер од 1949 година, која сугерира дека универзален јазик можеби постои во основата на целата човечка комуникација. Наместо да работат со директни текстуални или говорни преводи, тие користат математички вектори—начин за претставување на зборови и реченици како броеви во повеќедимензионален простор.

  1. Ги векторизираат сите текстови од различни јазици во еден заеднички простор, наречен SONAR (Sentence-level Multimodal and Language-Agnostic Representations).
  2. Потоа додаваат говорни податоци, користејќи техника наречена W2v (word to vector), така што изговорени реченици со слично значење се поставени блиску една до друга во системот.
  3. Ова создадава огромна база на автоматски усогласени текстови и говор на повеќе јазици—дури и за оние што немаат многу преводни ресурси.

Системот за превод Seamless

Со оваа база на податоци, Meta го обучи својот AI модел, SEAMLESSM4T v2, кој може:

  1. Да преведува говор-во-говор од 101 јазик на 36 излезни јазици.
  2. Да преведува текст-во-текст на повеќе јазици.
  3. Да функционира како систем за автоматско препознавање на говор на 96 јазици.
  4. Да преведува говор-во-текст и текст-во-говор ефикасно.

Во споредба со постарите методи за превод, SEAMLESSM4T v2 ја подобри точноста на преводите за 8% во говор-во-текст и 23% во говор-во-говор, според индустриските стандарди за оценување.

Уште еден чекор напред: Стриминг и експресивен превод

Откако SEAMLESSM4T беше поднесен за преглед во ноември 2023 година, Meta направи уште повеќе напредок, воведувајќи два нови модели:

  1. SeamlessStreaming – Овозможува превод во реално време, слично на симултан преведувач. Наместо да чекате за цела реченица, преведува додека зборувате.
  2. SeamlessExpressive – Го зачувува тонот, гласноста, темпото и емоциите во преводите. Тоа значи дека шепот, радосен коментар или гневен извик ќе бидат преведени со истата експресивност.

Иако овие функции се импресивни, има неколку ограничувања:

  • SeamlessStreaming и SeamlessExpressive не можат да се користат истовремено. Треба да изберете меѓу реално-временски или експресивен превод.
  • Експресивноста е достапна само на англиски, шпански, француски и германски.

Иднината на AI преводот

Проектот Seamless на Meta не носи поблиску од кога било до универзалниот преведувач од Star Trek. Иако има уште простор за подобрување, можноста за водење природни разговори во реално време на повеќе јазици сега е реалност. Најдобро од сè, можете да го испробате онлајн уште денес!

Извор: ArsTechnica

Избор на уредникот

Prijavi se na novosti.