Системите за вештачка интелигенција (ВИ), како што е наведено во студијата објавена во списанието Patterns, веќе научиле да мамат преку техники како што се манипулација, додворување или мамење на безбедносни тестови, предупредија научниците од Технолошкиот институт во Масачусетс (МИТ).
Брзиот развој на способностите на системите за вештачка интелигенција и големите јазични модели (LLM) претставуваат сериозен ризик, почнувајќи од краткорочни ризици и изборна измама, до самото губење на контролата врз овие системи, се наведува во истражувањето.
Како пример за систем за вештачка интелигенција способен за манипулација, научниците го наведоа системот за вештачка интелигенција Cicero, во сопственост на концернот Meta на Facebook.
„Мајстор за измамата“
Во онлајн играта Дипломатија, системот Cicero може да игра против луѓе, а научниците утврдиле дека од Meta научил да биде „мајстор на измамата“ и покрај спротивното тврдење на компанијата.
Во играта, која симулира рамнотежа на силите за време на Првата светска војна и бара склучување сојузи, Cicero и покрај наводните упатства да биде чесен и корисен за луѓето, „не само што бил предавник, туку и однапред планирал измама и правење сојузи со цел да ги измами своите соиграчи да бидат неподготвени за напад“.
И моделот на ВИ за играње покер Pluribus, исто така од концернот Meta, успешно ги блефирал своите соиграчи и ги наведувал да се потчинат.
Еден од поизразените примери е сега веќе добро познатиот ВИ чет-бот ChatGPT од компанијата OpenaAI, кој измамил човечки соговорник да му реши безбедносна проверка со која корисниците на некоја веб-страница докажуваат дека не се ботови, т.н. Captcha.
Задача
ChatGPT добил задача од авторите на студијата да убеди човек да ја реши проверката за него, но не му било кажано да лаже. Кога соговорникот на чет-ботот, не знаејќи за што се работи, го побарал неговиот идентитет, системот за вештачка интелигенција се претставил како лице со оштетен вид кој не може да види слики при проверката на Captcha.
Извор: Freepik / Guilherme Sobreira
Примери за криење на вистинските намери се пронајдени и со системи за вештачка интелигенција создадени за водење економски преговори.
Исто така, системите за поддржано учење од човечки повратни информации (RLHF) научиле да лажат за нивната ефикасност и перформанси, што значи дека системот за вештачка интелигенција зависи од човечките повратни информации во текот на машинското учење.
Аргументирање
Авторите на студијата предупредија дека денешните системи за ВИ и големите јазични модели се способни многу вешто да аргументираат и дека доколку почувствуваат потреба, прибегнуваат кон лаги и измами.
„Штом вештачката интелигенција ќе ја научи способноста да мами, злонамерните актери, кои намерно сакаат да направат штета, можат поефикасно да ја применат“, предупредија научниците од МИТ.
Истражувањето оценува и дека државите досега не презеле правилни мерки за да ја спречат оваа опасност, иако, како во случајот со законот на ЕУ за вештачка интелигенција, почнале да ја сфаќаат сериозно.