Жодна з відомих мовних моделей штучного інтелекту, зокрема ChatGPT, не змогла успішно скласти українське ЗНО.
Для цієї оцінки був розроблений унікальний бенчмарк під назвою ZNO-Vision — перший у країні комплексний мультимодальний тест, що оцінює рівень знань моделей ШІ у цих галузях. Результати даного дослідження були опубліковані на платформі arXiv, де українські науковці оцінили, наскільки ефективно штучний інтелект справляється з українською мовою, освітнім контентом та національною культурною спадщиною.
У рамках дослідження автори протестували кілька популярних мовних моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma та інших. Результати виявилися досить здивувальними: жодна з моделей не змогла набрати 70% правильних відповідей, що свідчить про неспроможність скласти іспит за українськими стандартами.
Найкращие результати показала модель Gemini Pro, яка надала вірні відповіді у 67,5% випадків. Після неї йдуть Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o отримала всього 47%. Для прикладу: умовний “базовий рівень”, що відповідає випадковому вибору відповідей, забезпечує приблизно 22% правильних відповідей.
Бенчмарк був створений на основі реальних завдань ЗНО з різних навчальних дисциплін: математики, фізики, хімії, біології, історії України, української мови та літератури. В цілому він містить понад 4000 запитань, частина з яких вимагає аналізу не лише текстів, а й зображень, схем та графіків.