Моделот со вештачка интелигенција е обучен со помош на слики генерирани со вештачка интелигенција создадени од генератори како DALL·E-3. Истражувачите потоа ги комбинирале со аудио снимки. Резултатот се видеа во кои сликите зборуваат.
Истражувачите се потпираа на технологијата на конкурентите како Runway и Nvidia, но во трудот наведуваат дека нивниот метод на работа е подобар, пореален и „значително ги надминува“ постоечките методи.
Истражувачите рекоа дека моделот може да снима аудио од која било должина и да создаде лице кое зборува според снимката, пишува Entrepreneur.
Единствената слика која не е генерирана од вештачка интелигенција со која експериментирале истражувачите е Мона Лиза. Тие направија интересно видео од Мона Лиза како ја отвора устата во согласност со зборовите на песната „Paparazzi“ од Ен Хатавеј, која се слуша „Yo I’m a paparazzi, I don’t play no yahtzee“.
Мона Лиза беше еден пример на фотографија со која моделот со вештачка интелигенција не бил обучен да ја обработува, но со која сепак можел да манипулира. Моделот исто така можеше да трансформира уметнички фотографии, да процесира пеење во аудио формат, како и говор на други јазици освен англискиот.
Напредната вештачка интелигенција како ризик
Истражувачите нагласија дека моделот може да работи во реално време со демо снимки. Моделот инстантно анимира слики со движења на главата и изрази на лицето.
„Дигитално изменетите“ личности може да шират дезинформации или да преземат нечиј идентитет без дозвола. Затоа напредната вештачка интелигенција, која може да генерира дигитални слики/видеа со релативно малку референтни точки, е ризична.
Мајкрософт генерално се осврна на оваа загриженост во трудот, а истражувачите изјавија: „Ние се спротивставуваме на секое однесување насочено кон создавање на заблуда или штетна содржина за вистински луѓе и ние сме заинтересирани да ја примениме нашата технологија за да го подобриме откривањето фалсификати“.
Истражувачите рекоа дека нивната технологија има и потенцијално позитивни примени, како што се подобрување на пристапноста и зголемување на образовните напори.
Google минатиот месец демонстрираше сличен истражувачки проект, прикажувајќи вештачка интелигенција способна да фотографира и да создаде видео од сликата што корисникот може да го контролира со својот глас. Дополнително можеше да додаде движења на главата, трепкања и гестови со рацете.