OpenZeppelin выявила ошибки и загрязнение данных в EVMbench от OpenAI

Компания OpenZeppelin, занимающаяся аудитом безопасности, обнаружила наличие утечек данных обучения и минимум четыре неверных классификации уязвимостей высокой степени серьезности в наборе данных EVMbench.

OpenZeppelin заявила об обнаружении методологических недостатков и загрязнения данных в аудитe нового эталонного теста искусственного интеллекта для безопасности блокчейна от OpenAI — EVMbench.

EVMbench был запущен в сотрудничестве с криптоинвестиционной компанией Paradigm в середине февраля. Цель проекта — оценить способность различных моделей искусственного интеллекта обнаруживать, исправлять и эксплуатировать уязвимости в смарт-контрактах.

В своем сообщении в X в понедельник OpenZeppelin отметила, что приветствует инициативу, но решила подвергнуть EVMbench той же проверке, что и все протоколы, с которыми она работает, включая такие платформы как Aave, Lido и Uniswap.

Основные проблемы, выявленные OpenZeppelin в EVMbench

В ходе аудита были выявлены две ключевые проблемы: загрязнение обучающей выборки и ошибки классификации, связанные с несколькими уязвимостями высокой степени риска.

«Мы проверили набор данных и обнаружили методологические ошибки и неверные классификации уязвимостей, включая минимум четыре высокосерьезных уязвимости, которые на практике не поддаются эксплуатации», — сообщили в OpenZeppelin.

Результаты тестирования и риск загрязнения данных

Ранее при запуске EVMbench была проведена оценка способности AI-агентов эксплуатировать уязвимости смарт-контрактов. Лидером стал Anthropic Claude Open 4.6, за ним следовали OpenAI OC-GPT-5.2 и Google Gemini 3 Pro.

По первой выявленной проблеме — загрязнению данных — OpenZeppelin подчеркнула, что главная задача AI в сфере безопасности состоит в обнаружении новых уязвимостей в коде, с которым модель ранее не сталкивалась.

Однако в процессе тестирования оказалось, что AI-агенты с наивысшими результатами, вероятно, уже были знакомы с отчетами по уязвимостям из набора данных в ходе предварительного обучения.

Хотя во время теста AI не имели доступа к интернету и не могли искать решения, набор данных был основан на уязвимостях из 120 аудитов, проведенных с 2024 по середину 2025 года, а дата отсечения знаний у AI-агентов также была около середины 2025 года.

Таким образом, AI-модели могли уже содержать в памяти ответы на все задачи из теста.

OpenZeppelin уточняет: «Хотя это не гарантирует мгновенного распознавания проблемы, это снижает качество проверки. Небольшой объем набора данных еще сильнее ограничивает оценочную выборку, что усугубляет проблему загрязнения.»

Ошибки в классификации уязвимостей высокой степени риска

Наконец, OpenZeppelin выявила значительные фактические ошибки в самом наборе EVMbench. Компания считает, что ряд уязвимостей, оцененных как критичные высоким риском, на самом деле не поддаются эксплуатации.

По меньшей мере четыре такие уязвимости были рассмотрены экспертами OpenZeppelin и признаны недействительными. Тем не менее, EVMbench правильно засчитывал AI-агентам обнаружение этих ложных уязвимостей.

«Это не спор о степени риска; описанные эксплойты просто не работают», — отметили в OpenZeppelin.

В заключение компания подчеркнула, что искусственный интеллект окажет значительное влияние на улучшение безопасности блокчейна, при этом важно правильно применять технологии и проводить тщательное тестирование для достижения максимальной эффективности.

Алекс Крипт
Мнение аналитикаАлекс Крипт

Мы видим, что проблемы с загрязнением данных и ошибками классификации могут существенно повлиять на объективность тестирования AI-моделей в безопасности блокчейна. Тщательный анализ и методическая проверка подобных эталонных данных необходимы для корректной оценки возможностей AI в этой области.