Заказная разработка и консалтинг
Корпоративные хранилища данных
Лучшие решения для хранения данных
LLM & NLP аутсорс
Усиление собственной команды
Усиление собственной команды
Data Science/Machine Learning аутсорс
Сбор, анализ, визуализация и обработка данных о состоянии бизнеса
AI Антифрод система
Инструменты работы с обратной связью покупателей
Анализ отзывов с помощью ИИ
AI Нейроанализ отзывов
Формирование персональных предложений на основе анализа поведения пользователей
Рекомендательные системы
Умный клиентский опыт
(Smart CX)
Предиктивная аналитика
Для поиска и анализа корпоративных документов
AI-Ассистенты
Для автоматизации поддержки клиентов
Клиентская аналитика
Product Matching
Умный бенчмаркинг
Гибкая подстройка цен под изменения рыночных факторов
Динамическое ценообразование
Для предсказания будущих событий и трендов на основе анализа исторических данных
Прогнозирование спроса
Создание инфраструктуры
Умный поиск
Обсудить проект

Применение методов машинного обучения для выявления фрода в отзывах и рейтингах: опыт «ДатаЛаб» и «ВкусВилл»

Новости
Публикации в СМИ
22.05.2024
В этой статье мы расскажем о подходах к выявлению недостоверных отзывов и оценок с помощью ML-методов, используя кейс внедрения антифрод-системы для «ВкусВилл».

Автор: Андрей Шелюх, руководитель проектов направления «ДатаЛаб».
С увеличением ассортимента товаров и цифровизацией торговли возрастает роль пользовательских отзывов и рейтингов. Они становятся критически важным фактором при выборе продукта. Вместе с тем наблюдается рост попыток манипулирования этими инструментами: размещение фальшивых отзывов, массовое завышение оценок или намеренное понижение рейтингов.
Такие искажения затрудняют объективную оценку качества, подрывают доверие клиентов и искажают обратную связь, важную для улучшения продукции. Машинное обучение предоставляет мощные инструменты для анализа больших объёмов данных и своевременного выявления неестественного поведения пользователей.

Актуальность проблемы

Специалисты «ДатаЛаб» разработали систему интеллектуального мониторинга отзывов и рейтингов, ориентированную на предотвращение фродовой активности на платформах «ВкусВилл». Внедрение этой системы позволило:

Цели и задачи проекта

формировать объективную картину потребительского мнения;
повышать прозрачность рейтингов;
выявлять и блокировать подозрительные отзывы;
«ВкусВилл» давно использует потребительскую обратную связь как основу для оперативного управления качеством продукции. Оценки, поступающие через сайт и мобильное приложение, формируют рейтинг, понижение которого сигнализирует о потенциальных проблемах с товаром. Такой подход требует защиты от манипуляций, и именно в этом направлении работает антифрод-система.
исключать влияние недобросовестных действий на ассортиментную политику.
Подготовка и очистка данных
После сбора данные проходят очистку: удаление дубликатов, проверка на выбросы, коррекция аномалий. Это обеспечивает корректность последующего обучения моделей.
текстовые отзывы;
числовые оценки;
данные о транзакциях;
Процесс начинается со сбора и нормализации информации, включающей:
информацию о пользователях (контакты, история покупок);
агрегированные характеристики поставщиков.

Методы выявления аномалий

Использование ансамблей моделей позволяет учитывать различные аспекты поведения. Когда несколько методов фиксируют отклонение, вероятность ошибки существенно снижается.
кластеризация (например, K-means) для поиска групп с отклоняющимся поведением;
алгоритмы обнаружения аномалий, включая Isolation Forest и k-NN;
нейросетевые подходы — автоэнкодеры и сверточные сети.
Фродовые действия часто сопровождаются нетипичными шаблонами поведения. Мы применяем методы машинного обучения, направленные на выявление таких паттернов:

Обучение моделей

Часто используются эмбеддинги, полученные на основе модели Pytorch Lifestream, которая позволяет учитывать эволюцию оценок и отзывов во времени, как на уровне отдельных пользователей, так и по товарно-поставочным парам.
Одним из подходов является анализ ошибки реконструкции автоэнкодеров: чем выше ошибка, тем сильнее наблюдение выбивается из общего контекста, что может свидетельствовать о фроде.
классификационные модели — для разделения фальшивых и подлинных отзывов;
алгоритмы кластеризации — для сегментации пользователей по признакам активности;
модели анализа временных рядов — для оценки динамики поведения.
В зависимости от задачи применяются разные типы моделей:

Обработка текстов с помощью NLP

Текстовая составляющая отзывов анализируется с использованием алгоритмов обработки естественного языка (NLP). Такие методы позволяют распознать повторяющиеся шаблоны, эмоциональные несоответствия и признаки автоматической генерации текста. Этот компонент будет рассмотрен более подробно в отдельной публикации.

Постоянное обновление модели

Одной из задач проекта является обеспечение устойчивости модели к эволюционирующим сценариям фрода. Это требует непрерывного мониторинга, включения новых данных в обучение и пересмотра значимых признаков. Система адаптируется к изменениям во внешней среде, сохраняя актуальность.

Контроль качества и ключевые метрики

доля автоматических выявлений (целевая метрика — 90%);
объём «плохой прибыли» — выручки, полученной благодаря недостоверным отзывам;
доля «подозрительных» оценок, поступивших от пользователей с аномальным поведением.
Ахлем Лукманов, руководитель направления антифрода в «ВкусВилл», подчеркивает: приоритетом является обеспечение достоверного рейтинга без риска блокировки добросовестных пользователей. Для оценки эффективности используются:
По словам Натальи Кузьменко, ответственной за клиентский путь поставщика, задача антифрод-системы не в наказании нарушителей, а в создании комфортных и прозрачных условий для клиентов. Защита честной конкуренции среди поставщиков и достоверность обратной связи — главные цели внедрения таких технологий.

Роль антифрод-системы

Особое внимание уделяется вопросам конфиденциальности и обработки персональной информации. Система проектировалась с учётом требований законодательства. Для этого используется хеширование, обезличивание и другие методы защиты при хранении истории активности.

Вопросы безопасности и хранения данных

Каждому признаку фродовой активности назначается вес. Оценка совокупности признаков и их частота позволяют принять обоснованное решение о блокировке или дальнейшей проверке активности. Набор признаков обновляется, чтобы отражать изменяющиеся схемы злоупотреблений. Эластичность системы — ключевой фактор эффективности.

Признаки фрода и их динамика

Каждому признаку фродовой активности назначается вес. Оценка совокупности признаков и их частота позволяют принять обоснованное решение о блокировке или дальнейшей проверке активности. Набор признаков обновляется, чтобы отражать изменяющиеся схемы злоупотреблений. Эластичность системы — ключевой фактор эффективности.

Заключение

Студенты МИФИ, МИСИС и ЮФУ изучают PostgreSQL с помощью СУБД Pangolin
В 2024 году команда СУБД Pangolin организовала доступ к продукту для студентов
Публикации в СМИ
В 2024 году команда СУБД Pangolin организовала доступ к продукту для студентов
Студенты МИФИ, МИСИС и ЮФУ изучают PostgreSQL с помощью СУБД Pangolin
Новости
Как low-code ускоряет разработку и вывод продуктов на рынок
Как low-code ускоряет разработку и вывод продуктов на рынок Как low-code ускоряет разработку и вывод продуктов на рынок
Новости
Блог