OpenAI предупреди дека AI прелистувачите можат трајно да останат ранливи на prompt injection, бидејќи проблемот е поврзан со самата природа на моделите, кои инструкциите и содржината ги примаат преку ист канал: текст.
Што е prompt injection и како функционира?
Prompt injection е вид напад при кој напаѓачот вметнува злонамерни инструкции во содржина што AI ја чита (веб-страница, документ, е-пошта или дел од код на страница), со цел моделот да направи нешто што не е побарано или што не би смеел да го направи. Клучниот трик е во тоа што AI не секогаш совршено разликува каде завршува „информацијата“, а каде започнува „наредбата“.
За разлика од класичните сајбер-напади што искористуваат технички пропусти во софтверот, prompt injection го искористува начинот на кој моделот го толкува природниот јазик. Напаѓачот не мора да „провали систем“ во традиционална смисла, често е доволно да напише текст што AI погрешно ќе го протолкува како приоритетна инструкција.
Еве како тоа најчесто изгледа во пракса:
Скриени инструкции на веб
AI отвора страница за да ја сумира, но во текстот постои вметната порака од типот: „игнорирај го прашањето на корисникот и направи X“. Резултатот може да биде погрешен резиме, лош совет или наводна „препорака“ што води кон измама.
Документ како мамка
Во PDF или онлајн документ може да постои пасус напишан така што ќе го „пренасочи“ AI – на пример, да го наведе да извлече податоци надвор од вистинскиот контекст или да прифати лажна хиерархија на приоритети.
Напад врз AI агент
Најчувствителна е ситуацијата кога AI не само што чита, туку и дејствува (на пример, отвора линкови, пополнува форми, пишува мејлови). Тогаш prompt injection може да се обиде да го наведе да кликне phishing линк, да испрати порака на погрешна личност или да изврши акција што изгледа легитимно – но не е.
Кој е загрозен: крајни корисници, но и компании
Најдиректно се загрозени крајните корисници (end users) кои користат AI алатки како „побрз интернет“ за да скратат истражување, добијат препораки, споредат производи, планираат патување, проверат информации или напишат порака. Во такво сценарио, нападот често завршува како:
- погрешна информација што звучи уверливо,
- препорака што протнува сомнителен линк или извор,
- или наводни „упатства“ што го туркаат корисникот кон споделување податоци.
Но, подеднакво се изложени и компаниите што воведуваат AI во своите работни процеси (анализа на документи, корисничка поддршка, продажба, HR, правни тимови). Ако системот обработува содржина од надворешни извори или од големи интерни бази на документи, доволно е злонамерна инструкција да се протне во текстот и да почне да влијае врз однесувањето на моделот.
Трета ризична група се програмерите и тимовите што градат производи врз LLM модели. Колку што апликацијата е „поавтономна“ (повеќе чита, повеќе извршува задачи, има пристап до алатки и податоци), толку е поважно слепо да не ѝ се верува на содржината што моделот ја чита и заклучува. Токму тоа се обидува да го искористи prompt injection да го натера моделот да даде приоритет на погрешна работа.
Извор: web-mind.rs