Мона Лиза рапува: Новата AI алатка им дава моќ на фотографиите да зборуваат и пеат (ВИДЕО)

Мајкрософт објави истражувачки труд во кој се прикажува нов модел на вештачка интелигенција наречен VASA-1 кој може да трансформира слика и аудио снимка во реалистично видео кое се синхронизира со изразите на лицето, движењата на главата и многу повеќе.

mona-lisa-1290-fi

Извор: Pixabay / WikiImages

Моделот со вештачка интелигенција е обучен со помош на слики генерирани со вештачка интелигенција создадени од генератори како DALL·E-3. Истражувачите потоа ги комбинирале со аудио снимки. Резултатот се видеа во кои сликите зборуваат. 

Истражувачите се потпираа на технологијата на конкурентите како Runway и Nvidia, но во трудот наведуваат дека нивниот метод на работа е подобар, пореален и „значително ги надминува“ постоечките методи. 

Истражувачите рекоа дека моделот може да снима аудио од која било должина и да создаде лице кое зборува според снимката, пишува Entrepreneur

Единствената слика која не е генерирана од вештачка интелигенција со која експериментирале истражувачите е Мона Лиза. Тие направија интересно видео од Мона Лиза како ја отвора устата во согласност со зборовите на песната „Paparazzi“ од Ен Хатавеј, која се слуша „Yo I’m a paparazzi, I don’t play no yahtzee“. 

Мона Лиза беше еден пример на фотографија со која моделот со вештачка интелигенција не бил обучен да ја обработува, но со која сепак можел да манипулира. Моделот исто така можеше да трансформира уметнички фотографии, да процесира пеење во аудио формат, како и говор на други јазици освен англискиот. 

Напредната вештачка интелигенција како ризик 

Истражувачите нагласија дека моделот може да работи во реално време со демо снимки. Моделот инстантно анимира слики со движења на главата и изрази на лицето. 

„Дигитално изменетите“ личности може да шират дезинформации или да преземат нечиј идентитет без дозвола. Затоа напредната вештачка интелигенција, која може да генерира дигитални слики/видеа со релативно малку референтни точки, е ризична. 

Мајкрософт генерално се осврна на оваа загриженост во трудот, а истражувачите изјавија: „Ние се спротивставуваме на секое однесување насочено кон создавање на заблуда или штетна содржина за вистински луѓе и ние сме заинтересирани да ја примениме нашата технологија за да го подобриме откривањето фалсификати“. 

Истражувачите рекоа дека нивната технологија има и потенцијално позитивни примени, како што се подобрување на пристапноста и зголемување на образовните напори. 

Google минатиот месец демонстрираше сличен истражувачки проект, прикажувајќи вештачка интелигенција способна да фотографира и да создаде видео од сликата што корисникот може да го контролира со својот глас. Дополнително можеше да додаде движења на главата, трепкања и гестови со рацете. 

Избор на уредникот

Prijavi se na novosti.