Минулого місяця робот AI обробляв технічну підтримку курсору, що є новим інструментом для комп’ютерних програмістів, нагадуючи декільком клієнтам про зміни в політиці компанії. Там сказано, що їм більше не дозволяється використовувати курсор на комп’ютері.
У гнівних публікаціях на дошці повідомлень в Інтернеті клієнти скаржаться. Деякі люди скасували свої облікові записи курсору. Деякі люди ще більше розлючені, коли усвідомлюють, що відбувається: роботи AI оголосили про зміни політики, які не існують.
“У нас немає такої політики. Ви, безумовно, можете використовувати курсор на декількох машинах”,-написав генеральний директор компанії та співзасновник Майкл Труелл у дописі Reddit. “На жаль, це відповідь помилок від Frontline AI-роботів.”
Через два роки після приїзду Chatgpt, технологічні компанії, офісні працівники та щоденні споживачі використовують роботів AI для все більш широкого спектру завдань. Але все ще неможливо гарантувати, що ці системи створюють точну інформацію.
Останні та найпотужніші технології-так звані системи умовиводу від таких компаній, як OpenAI, Google та China, запустили DeepSeek-генерують більше помилок, не менше. По мірі того, як їхні математичні навички значно покращуються, їх поводження з фактами стає більш хитрим. Незрозуміло, чому.
Сьогоднішні роботи AI засновані на складних математичних системах, які вивчають свої навички, аналізуючи велику кількість цифрових даних. Вони цього не роблять – і не можуть вирішити, що правда, а що не так. Іноді вони просто складають щось, що деякі дослідники AI називають галюцинації. В одному тесті нові системи AI мали галюцинації до 79%.
Ці системи використовують математичну ймовірність, щоб відгадати найкращу відповідь, а не суворий набір правил, визначених штучними інженерами. Тому вони зробили певну кількість помилок. “Незважаючи на те, що ми зробили все можливе, вони завжди будуть галюцинувати”, – сказав Амр Авадалла, генеральний директор Vectara. “Це ніколи не піде”.
Це явище протягом багатьох років привернуло увагу до надійності цих систем. Хоча вони корисні в деяких випадках (наприклад, написання семестрових робіт, узагальнення офісних документів та генерування комп’ютерного коду), їх помилки можуть спричинити проблеми.
AI боти, пов’язані з пошуковими системами, такими як Google та Bing, іноді дають результати пошуку, і ці результати є моторошними. Якщо ви попросите їх мати чудовий марафон на Західному узбережжі, вони можуть порекомендувати гонку у Філадельфії. Якщо вони скажуть вам кількість домогосподарств в Іллінойсі, вони можуть цитувати джерела, які не містять цієї інформації.
Ці галюцинації для багатьох можуть бути не великою проблемою, але це є серйозною проблемою для тих, хто використовує судові документи, медичну інформацію або чутливі дані бізнесу.
“Ви витрачаєте багато часу, намагаючись розібратися, які відповіді – це факти, а які ні”. Пратік Верма, співзасновник та генеральний директор Okahu, заявив, що компанія допомагає бізнесу вирішити галюцинації. “Не впоратися з цими помилками правильно в основному усуває значення системи AI, що повинно автоматизувати завдання для вас”.
Курсор та пан Тур не відповіли на запити про коментарі.
Протягом двох років такі компанії, як OpenAI та Google, постійно покращували системи AI та зменшили частоту цих помилок. Однак із використанням нових систем висновку зростає помилки. Згідно з власними тестами компанії, остання галюцинація Systems OpenAI вища, ніж попередні системи компанії.
Компанія встановила, що під час виконання орієнтирів Personqa, O3, найпотужніша система, галюцинація 33% часу, яка передбачала відповідь на питання про громадські діячі. Це більш ніж удвічі більше галюцинації попередньої системи висновку OpenAI, яка називається O1. Нові галюцинації O4 Minni з більшою швидкістю: 48%.
Виконуючи ще один тест під назвою Simpleqa, було задано більш загальні питання, зі швидкістю галюцинації O3 та O4-Mini при 51% та 79%. O1 у попередній системі мала галюцинації 44% часу.
У документі, що детально описується тест, OpenAi сказав, що потрібно більше досліджень, щоб зрозуміти причини цих результатів. Оскільки системи AI дізнаються більше з даних, ніж люди можуть заплутатися, технічним працівникам важко визначити, чому вони діють так, як вони роблять.
“Хоча ми активно працюємо над зменшенням більш високої галюцинації швидкості, що спостерігаються в O3 та O4-Mini, галюцинації не є по суті”,-заявила прес-секретар компанії Габі Раїла. “Ми продовжуватимемо розглянути галюцинації у всіх моделях для підвищення точності та надійності”.
Ханнан Хаджішірзі, професор університету Вашингтона та дослідник Інституту штучного інтелекту Аллена, є частиною команди, яка нещодавно розробила спосіб простежити поведінку системи назад до навчених окремих даних. Однак, оскільки система вчиться з багатьох даних – і тому, що вони можуть генерувати майже все, цей новий інструмент не може все пояснити. “Ми досі не знаємо, як працюють ці моделі”, – сказала вона.
Тести незалежних компаній та дослідників показують, що галюцинації також збільшують моделі висновку для таких компаній, як Google та DeepSeek.
З другої половини 2023 року містер Вектара, компанія Awadallah, відстежував частоту чатів. Компанія вимагає від цих систем виконувати пряме завдання, яке легко перевірити: узагальнення конкретних статей новин. Вже тоді чати продовжують вигадувати інформацію.
Оригінальні дослідження Вектара підрахували, що в цьому випадку чат припадає щонайменше 3% часу, іноді до 27%.
Такі компанії, як OpenAI та Google, знизили ці цифри до діапазону 1% або 2% з півтора року. Інші, такі як стартапи Сан -Франциско, колись навчаються близько 4%. Однак швидкість галюцинації цього тесту збільшується зі збільшенням системи висновків. Система висновку DeepSeek R1 має час 14,3%. O3 Openai піднявся на 6,8.
(New York Times подав до суду на OpenAI та його партнера Microsoft за порушення вмісту новин, пов’язаних із системами AI. OpenAI та Microsoft відмовили в цих претензіях.)
Протягом багатьох років такі компанії, як OpenAI, покладаються на просту концепцію: чим більше даних в Інтернеті вони подають в системи AI, тим краще ефективність цих систем. Але вони споживають майже весь англійський текст в Інтернеті, а це означає, що їм потрібен новий спосіб покращити чат -боти.
Тому ці компанії більше покладаються на те, що вчені називають технологією навчання підкріплення. Завдяки цьому процесу система може навчитися поведінці за допомогою спроб та помилок. Він добре працює в певних галузях, таких як математика та комп’ютерне програмування. Але це не в достатній обставинах в інших сферах.
“Для того, як ці системи пройдуть навчання, вони почнуть зосереджуватися на одному завданні і почнуть забувати про інших”,-сказала Лора Перес-Бельтрачіні, дослідник університету Едінбурга.
Ще одна проблема полягає в тому, що модель міркувань розроблена для того, щоб витратити час на “думати” через складні питання, перш ніж вирішувати відповіді. Коли вони намагаються вирішити проблему поетапно, вони ризикують галюцинацією на кожному кроці. Помилки складніше, коли вони проводять більше часу на роздуми.
Останній бот розкриває кожен крок для користувача, а це означає, що користувач також може бачити кожну помилку. Дослідники також встановили, що в багатьох випадках кроки, що відображаються роботом, не мають нічого спільного з відповідями, які в кінцевому підсумку надають.
“Те, що говорить система, не обов’язково думає про те, що це таке”, – сказав Аріо Прадіпта Джема, дослідник антропології в Едінбургському університеті.
Leave a Reply