Компания OpenZeppelin, занимающаяся аудитом безопасности, обнаружила наличие утечек данных обучения и минимум четыре неверных классификации уязвимостей высокой степени серьезности в наборе данных EVMbench.
OpenZeppelin заявила об обнаружении методологических недостатков и загрязнения данных в аудитe нового эталонного теста искусственного интеллекта для безопасности блокчейна от OpenAI — EVMbench.
EVMbench был запущен в сотрудничестве с криптоинвестиционной компанией Paradigm в середине февраля. Цель проекта — оценить способность различных моделей искусственного интеллекта обнаруживать, исправлять и эксплуатировать уязвимости в смарт-контрактах.
В своем сообщении в X в понедельник OpenZeppelin отметила, что приветствует инициативу, но решила подвергнуть EVMbench той же проверке, что и все протоколы, с которыми она работает, включая такие платформы как Aave, Lido и Uniswap.
Основные проблемы, выявленные OpenZeppelin в EVMbench
В ходе аудита были выявлены две ключевые проблемы: загрязнение обучающей выборки и ошибки классификации, связанные с несколькими уязвимостями высокой степени риска.
«Мы проверили набор данных и обнаружили методологические ошибки и неверные классификации уязвимостей, включая минимум четыре высокосерьезных уязвимости, которые на практике не поддаются эксплуатации», — сообщили в OpenZeppelin.
Результаты тестирования и риск загрязнения данных
Ранее при запуске EVMbench была проведена оценка способности AI-агентов эксплуатировать уязвимости смарт-контрактов. Лидером стал Anthropic Claude Open 4.6, за ним следовали OpenAI OC-GPT-5.2 и Google Gemini 3 Pro.
По первой выявленной проблеме — загрязнению данных — OpenZeppelin подчеркнула, что главная задача AI в сфере безопасности состоит в обнаружении новых уязвимостей в коде, с которым модель ранее не сталкивалась.
Однако в процессе тестирования оказалось, что AI-агенты с наивысшими результатами, вероятно, уже были знакомы с отчетами по уязвимостям из набора данных в ходе предварительного обучения.
Хотя во время теста AI не имели доступа к интернету и не могли искать решения, набор данных был основан на уязвимостях из 120 аудитов, проведенных с 2024 по середину 2025 года, а дата отсечения знаний у AI-агентов также была около середины 2025 года.
Таким образом, AI-модели могли уже содержать в памяти ответы на все задачи из теста.
OpenZeppelin уточняет: «Хотя это не гарантирует мгновенного распознавания проблемы, это снижает качество проверки. Небольшой объем набора данных еще сильнее ограничивает оценочную выборку, что усугубляет проблему загрязнения.»
Ошибки в классификации уязвимостей высокой степени риска
Наконец, OpenZeppelin выявила значительные фактические ошибки в самом наборе EVMbench. Компания считает, что ряд уязвимостей, оцененных как критичные высоким риском, на самом деле не поддаются эксплуатации.
По меньшей мере четыре такие уязвимости были рассмотрены экспертами OpenZeppelin и признаны недействительными. Тем не менее, EVMbench правильно засчитывал AI-агентам обнаружение этих ложных уязвимостей.
«Это не спор о степени риска; описанные эксплойты просто не работают», — отметили в OpenZeppelin.
В заключение компания подчеркнула, что искусственный интеллект окажет значительное влияние на улучшение безопасности блокчейна, при этом важно правильно применять технологии и проводить тщательное тестирование для достижения максимальной эффективности.
Мы видим, что проблемы с загрязнением данных и ошибками классификации могут существенно повлиять на объективность тестирования AI-моделей в безопасности блокчейна. Тщательный анализ и методическая проверка подобных эталонных данных необходимы для корректной оценки возможностей AI в этой области.