0
0
1757

Российские исследователи нашли способ проверять качество моделей ИИ без размеченных данных

18:54 14.04.2026


Исследователи Центра практического искусственного интеллекта Сбербанка и НИУ ВШЭ предложили способ оценивать качество векторных представлений (эмбеддингов) без участия человека и размеченных данных. Специализированная метрика Persistence помогает выбрать лучшую архитектуру модели и вовремя остановить её обучение, экономя GPU-часы и ускоряя выход ИИ-решений в реальный бизнес. Результаты исследования изложены в научной статье, которая принята на конференцию высшего уровня ECIR 2026 (48-я Европейская конференция по информационному поиску) в Делфте, Нидерланды.

В современном машинном обучении модели, которые учатся без ручной разметки, становятся основой для рекомендаций, финансовой аналитики и поведенческого моделирования. Но у разработчиков долго не было инструмента, чтобы без ручной разметки данных понять, хорошие ли эмбеддинги получились. Существующие метрики предполагают линейную разделимость данных или работают только в узких сценариях. Предложенная метрика решает ключевые задачи автоматически: подбирает оптимальный размер эмбеддинга, количество слоёв и функцию потерь, а также указывает, на какой эпохе обучения нужно остановиться, чтобы модель не переобучилась и не осталась сырой.

Метрика основана на методе топологического анализа данных. Над множеством точек в пространстве эмбеддингов строится фильтрация Вьеториса–Рипса, а суммарная персистентность топологических признаков отражает геометрическое богатство этого пространства. Метрика российских ученых устойчиво превосходит зарубежных конкурентов (RankMe, α-ReQ, NESum, SelfCluster) по корреляции с качеством на прикладных задачах — в финансовой аналитике, поведенческом моделировании и коллаборативной фильтрации.

Для бизнеса это прямая экономия. Раньше выбор лучшей модели эмбеддингов требовал тестирования каждой конфигурации на размеченных данных — требует ресурсов и времени. Persistence оценивает качество модели без лишних задач и находит оптимальную эпоху обучения, когда эмбеддинги максимально структурированы (без пере- или недообучения). Компании тратят меньше ресурсов на эксперименты и быстрее запускают лучшую модель в прод. Даже при малом количестве разметки или её отсутствии (например, новая категория товаров) Persistence работает. Метрика универсальна: подходит для любых бизнес-задач, а эмбеддинги не заточены под один классификатор. Persistence устойчива там, где валидация падает (временной сдвиг, сложные пайплайны), — она оценивает внутреннюю геометрию эмбеддингов, а не конкретную выборку.

Решение позволит получать более точные рекомендации в онлайн-кинотеатрах и маркетплейсах. Он улучшит работу голосовых помощников и ускорит внедрение ИИ в медицину. Снизится барьер применения моделей без учителя в областях с дефицитом разметки: здравоохранение, социальные науки, гуманитарные дисциплины.

«До появления специализированной метрики аналитики данных выбирали архитектуру и момент остановки обучения модели вслепую или через ресурсозатратные эксперименты с разметкой. Это требовало сотен GPU-часов и замедляло вывод моделей в прод. Наша метрика автоматически оценивает качество эмбеддингов по их внутренней геометрии, - рассказал Сергей Рябов, директор департамента развития ИИ-решений Сбербанка. - Обучают несколько конфигураций — Persistence указывает лучшую. Или обучают одну модель — метрика определяет эпоху остановки, избегая переобучения. В результате происходит экономия ресурсов, развиваются универсальные модели, устойчивые к сдвигам распределения данных. Для бизнеса — скорость и предсказуемость, для пользователей — более точные ИИ-сервисы, быстрее адаптирующиеся к новым сценариям без длительной настройки».


Оставлять комментарии могут только авторизованные пользователи.

Вам необходимо Войти или Зарегистрироваться

комментарии(0)


Вы можете оставить комментарии.


Комментарии отключены - материал старше 3 дней

Новости


23:10 23.04.2026
Мужчина совершил нападение на врачей в больнице в Махачкале
0
334
21:45 23.04.2026
Сожжение флага Турции в центре Еревана Пашинян считает безответственным и недопустимым
0
459
20:15 23.04.2026
Премьер Бельгии: Экономические последствия войны США с Ираном очень велики, особенно для нас
0
554
19:30 23.04.2026
Европа с 2027 вводит запрет на использование СПГ-терминалов российскими компаниями
0
497
19:16 23.04.2026
Целевой набор в вузы соотнесут с кадровой потребностью
0
523
18:45 23.04.2026
Еврокомиссар по обороне обещает Киеву «больше дронов, боеприпасов и ракет»
0
586
18:25 23.04.2026
Песков прокомментировал информацию о военных учениях Польши и Франции
0
657
17:40 23.04.2026
Общее число танкеров в черном списке ЕС достигло 632
0
615
17:12 23.04.2026
Сбои в работе интернета в РФ связаны с предотвращением угроз терроризма — Путин
0
629
17:00 23.04.2026
Часть угольных компаний в РФ могут поглотить или ликвидировать из-за кризиса - министр энергетики РФ
0
638

Возврат к списку