ChatGPT провалив тест на наукові гіпотези

Американські вчені провели масштабний експеримент, щоб з’ясувати, наскільки точно сучасні системи штучного інтелекту здатні оцінювати наукові твердження. Для цього вони запропонували ChatGPT проаналізувати понад 700 гіпотез із реальних наукових досліджень і визначити, чи є вони правдивими, чи хибними, повідомляє znaj.org.
На перший погляд результати виглядали досить оптимістично. У 2024 році точність відповідей становила 76,5%, а вже у 2025-му зросла до 80%. Однак після врахування фактору випадкового вгадування реальна ефективність системи значно знизилася – приблизно до 60%.
Особливо слабким місцем виявилася здатність ШІ розпізнавати неправдиві твердження. У цьому випадку правильні відповіді становили лише 16,4%, що, за словами дослідників, свідчить про серйозні обмеження у логічному аналізі.
Крім того, вчені зафіксували ще одну проблему – непослідовність відповідей. Навіть якщо ставити одне й те саме запитання кілька разів поспіль, ChatGPT може давати різні результати. Це ставить під сумнів його надійність у задачах, де потрібна стабільність і точність.
Дослідники наголошують, що сучасні моделі штучного інтелекту не “розуміють” інформацію в людському сенсі. Вони працюють на основі статистичних закономірностей і великих масивів даних, а не справжнього мислення. Саме тому відповіді ШІ можуть звучати переконливо, але при цьому бути помилковими.
На думку авторів роботи, створення штучного інтелекту, який дійсно здатен до повноцінного логічного мислення, може зайняти значно більше часу, ніж очікується.
У підсумку вчені радять користувачам ставитися до відповідей ШІ критично та обов’язково перевіряти інформацію, особливо коли йдеться про науку, медицину чи інші важливі сфери.

Залишити відповідь Скасувати коментар