Анализата спроведена од истражувачи покажува дека GPT-4o во голема мера прецизно репродуцира и интерпретира специфични технички извадоци од книги на O’Reilly, кои се достапни исклучиво за корисници со платени претплати. Во споредба со претходниот модел GPT-3.5 Turbo, новиот модел покажува значително поголемо „познавање“ на содржината од овие извори.
„Нивото на детали и прецизност со кои GPT-4o одговара на прашања базирани на материјали од O’Reilly силно сугерира дека оваа содржина била дел од неговиот тренинг-корпус“, наведуваат истражувачите.
Од O’Reilly Media сè уште нема официјална изјава во врска со изнесените тврдења. OpenAI, исто така, не потврди, но ниту негираше дека книгите од овој издавач биле користени во процесот на тренирање на моделот.
Оваа ситуација отвора серија прашања за авторските права, транспарентноста на податоците што се користат за обучување на големите јазични модели (LLM), како и за етиката во развојот на вештачката интелигенција. Во ера кога ВИ моделите се потпираат на огромни количини текст од интернет и други извори, издавачите и авторите сè погласно бараат заштита на своите права и поголема контрола врз користењето на нивната интелектуална сопственост, објави TechCrunch.
Да потсетиме, ова не е првпат OpenAI да се соочи со обвинувања за користење материјал без дозвола. Повеќе големи медиумски куќи и автори веќе имаат покренато или најавено правни постапки против компанијата поради слични тврдења.
Ако се потврди дека содржината на O’Reilly навистина била користена без согласност, можно е да следат дополнителни правни последици, како и зголемени повици за построга регулација во областа на обучување ВИ модели.
Извор: Bizlife.rs