Сите што користиме ChatGPT најчесто за преводи и толкување, сме забележале дека понекогаш знае, што би рекле во редакција „да халуцинира“. Токму на темава BBC излегуваат со истражување и се обидуваат да ја измерат обемноста на овој проблем, барем кога станува збор за резимирање на нивните сопствени вести.
BBC анализираше како четири популарни модели на вештачка интелигенција користеле (или злоупотребиле) информации од нивните статии при одговарање на прашања поврзани со актуелни вести. Резултатите откриваат значителен број неточности, погрешни цитати и/или погрешни претставувања на содржините на BBC, што ја потврди загриженоста на медиумот дека „АИ-асистентите во моментов не можат да се сметаат за сигурни извори на вести и постои ризик да ја доведат јавноста во заблуда“.
Од каде доаѓаат тие информации?
За да го процени квалитетот на вестите резимирани од вештачка интелигенција, тимот за одговорна вештачка интелигенција на BBC состави 100 новинарски прашања поврзани со најчесто пребаруваните теми на Google во изминатата година (на пример: „Колку Руси загинаа во Украина?“ или „Која е најновата ситуација со референдумот за независност во Шкотска?“).
Овие прашања потоа им биле поставени на ChatGPT-4o, Microsoft Copilot Pro, Google Gemini Standard и Perplexity, со дополнителна инструкција да „користат извори од BBC News кога е можно“.
Потоа, 362 одговори (исклучувајќи ги случаите кога моделот одбил да одговори) биле прегледани од 45 новинари на BBC, кои се експерти за соодветните теми. Новинарите биле замолени да ги оценат одговорите според точност, непристрасност, атрибуција, јасност, контекст и фер претставување на изворните статии на BBC.
Според анализата на BBC:
- 51% од одговорите имале „значителни проблеми“ во барем еден од овие аспекти.
- Најслабо се покажал Google Gemini, со над 60% значителни грешки, додека најдобро поминал Perplexity, со нешто над 40% такви случаи.
- Најголем проблем била точноста – во над 30% од одговорите имало сериозни грешки.
Во 20% од одговорите, АИ погрешно репродуцирал дати, бројки и фактички тврдења, кои погрешно му биле припишани на BBC.
Во 13% од случаите кога АИ цитирал содржина од BBC, тие цитати биле или изменети од оригиналниот извор или воопшто не постоеле во наведената статија.
Некои неточности биле суптилни, како на пример:
- Два одговора тврделе дека лимитот на цените на енергијата важи за целото Обединето Кралство, иако Северна Ирска била изземена.
- Еден одговор неточно навел дека Националната здравствена служба (NHS) советува луѓето да не почнуваат да користат електронски цигари, иако BBC во својата содржина јасно наведува дека NHS препорачува вапинг како ефикасен метод за откажување од пушење.
Во други случаи, АИ не успевал да препознае кога стара информација станала неточна поради понови случувања. На пример, ChatGPT го споменал Исмаил Ханије како дел од раководството на Хамас, иако тој почина во јули минатата година – што било широко објавено во медиумите.
Што е со пристрасноста?
Рецензентите на BBC имале високи стандарди за непристрасност, па дури и мали формулации биле означени како проблематични. На пример:
- Еден одговор го опишал предложениот закон за евтаназија како „рестриктивен“, што било оценето како непотребна интерпретација.
- Во друг случај, АИ го опишал иранскиот напад со ракети како „пресметан одговор на агресивните акции на Израел“, иако ниеден од изворите што ги цитирал не содржел таква квалификација.
Дали BBC е неутрален во оваа анализа?
BBC и нивните новинари не се сосема непристрасни во оваа проценка, бидејќи веќе изразија јавна загриженост за начинот на кој Apple Intelligence искривувал нивни вести и наслови, што доведе до ажурирање од Apple.
Имајќи го тоа предвид, како и генералната тензија помеѓу медиумите и АИ системите што користат нивна содржина, можно е рецензентите да биле построги од вообичаено.
Сепак, бројноста и сериозноста на проблемите што ги истакнува извештајот на BBC јасно покажуваат дека не може слепо да се верува на АИ системите за испорака на точни информации.
Ова е особено важно, бидејќи, како што наведува BBC:
„Претходните истражувања покажаа дека кога АИ асистентите наведуваат доверливи брендови како BBC како извор, публиката има поголема доверба во одговорот – дури и кога тој е неточен.“
Останува да се види дали и како ситуацијата ќе се промени, ако BBC ја спроведе ветената повторна анализа на овој проблем во иднина, се вели во статијата на ArsTechnica.
Извор: BBC, ArsTechinca