AI плагиатство или какво се случва, когато Grok счупи кода на ChatGPT?

След еуфорията от пускането на ChatGPT, редица изследователи и експерти предупредиха, че лекотата, с която се създава съдържание чрез инструменти с изкуствен интелект, може да „отрови кладенеца“ на информация, създавайки порочен кръг, в който тези инструменти генерират съдържание, което след това се използва за обучение на други модели за AI. Този така наречен "срив на модела" - който би изчерпал всички "знания", натрупани от чатботовете,  изглежда се е сбъднал, пишат в анализ от FastCompany.

Неотдавна потребител на X (Twitter) публикува скрийншот, показващ, че Grok, чатботът с голям езиков модел, разработен от xAI на Илон Мъск, е (вероятно неволно) плагиатствал отговор от конкурентния чатбот на OpenAI. Когато потребителят го помолил да подправи злонамерен софтуер, Grok отговорил, че не може, "тъй като това противоречи на политиката на OpenAI".

"Това се случи, когато се опитах да го накарам да модифицира някакъв зловреден софтуер", обяснява потребителят в публикацията, като предполага, че отговорът може да е доказателство, че "Grok буквално разкъсва кодовата база на OpenAI". Това обяснение беше опровергано от Игор Бабушкин, член на техническия персонал на xAI, който преди това е работил за OpenAI и Google DeepMind. "Не се притеснявайте, за създаването на Grok не е използван код на OpenAI", отговори той в X.

Вместо това, най-вероятно е имало срив на модела – въпреки че Бабушкин не използва точно тези думи.
"Проблемът тук е, че мрежата е пълна с изходи от ChatGPT, така че ние случайно взехме някои от тях, когато обучихме Grok върху голямо количество уеб данни", пише той. "Това беше огромна изненада за нас, когато го забелязахме за първи път."

Grok е създаден по-специално за извличане на данни от лайфстрийм на интернет съдържание, включително от потока от публикации на X, което беше определено като потенциален проблем от експерти в коментар за FastCompany още преди месец. "Това наистина показва, че тези модели няма да бъдат надеждни в дългосрочен план, ако се учат от данни след епохата на LLM – без да може да се каже какви данни са били генерирани от машини, качеството на резултатите ще продължи да спада", обяснява Катрин Флик, професор по етика и технология в университета в Стафордшир.

"Това, което изглежда се е случило тук, е, че Илон Мъск е взел по-малко способен модел", смята Рос Андерсън, един от съавторите на оригиналната статия, в която е въведен терминът "срив на модела", "и след това го е донастроил, изглежда, като е получил много съдържание, произведено от ChatGPT, от различни места."

Андерсън предупреждава, че вероятно ситуацията ще се влоши. "Когато LLM произвеждат съдържание без човешки надзор, те могат да генерират всякакви глупости", казва той. "Щом имате LLM бот, който просто изхвърля всякакви неща в интернет, той може да прави всякакви лоши неща, а вие просто да не знаете."

Почти половината от работещите в платформата Mechanical Turk на Amazon, която често се използва от академични изследователи за събиране на данни и провеждане на експерименти, са съобщили, че са използвали инструменти за генеративен AI, което предполага, че халюцинациите и грешките скоро могат да намерят своето място в научната литература.

Конкретната фраза, която първа е насочила потребителя в X към нещо подозрително, случващо се с Grok, не е съвсем уникална. "Това противоречи на политиката на OpenAI за случаите на употреба" се появява на хиляди уебсайтове преди туита на 9 декември.

В мрежата има около 20 000 резултата, които използват абсолютно същата фраза, допълва FastCompany. Някои от тях са цитати, включени в постове за това как потребители използват ChatGPT неправомерно и се сблъскват с вградените му ограничения, но много от тях са от уебсайтове, които изглежда неволно са включили фразата в съдържание, генерирано от изкуствен интелект, което е било публикувано директно в интернет без редакция.

Визуално представяне на щетите, които може да нанесе сривът на модела, е демонстрирано от изследователи от Станфордския университет и Калифорнийския университет в Бъркли, които са захранвали създателите на генеративни изображения с продукти, генерирани от AI.

Изкривяванията и деформациите, които се получават, превръщат напълно нормални човешки лица в гротескни карикатури, тъй като моделът започва да се разпада. Забавният мем "Make it more", който се разпространява в социалните медии, където потребителите молят генераторите на изображения с AI да направят продукцията им по-екстремна, също подчертава какво може да се случи, когато AI започне да се обучава по генерирана от AI продукция.

Това е проблем, който вероятно само ще се задълбочава, тъй като чатботовете, базирани на LLM, стават все по-разпространени в ежедневието ни, а резултатите от тях – все по-често срещани в нашето онлайн преживяване. Решението на проблема също няма да е лесно, след като лавината вече е тръгнала по склона.

"xAI просто ще направи някакво изключване на "OpenAI" и други имена на модели и ще замаже проблема, но основният проблем няма да изчезне. Машината ще продължи да изяжда собствените си творения, докато не остане само петно от това, което е било оригинално.", прогнозира проф. Флик.

Източник
Profit
Снимка
Google DeepMind, Pexels

Таг