#Тестирование исторических данных
Explore tagged Tumblr posts
Link
0 notes
Video
youtube
Новые возможности форекс-роботов 2023 года: улучшение торговой стратегии.
#youtube#трейдинг#Роботы Форекс#Автоматизированный трейдинг#Автоматизация торговли#Торговые стратегии#Алгоритмический трейдинг#Тестирование исторических данных#Эмоции в трейдинге#Анализ торговли#Обновления в реальном времени#Валютные пары#Стабильная прибыль#Торговое ПО#Эффективность трейдинга#Эксперты#Зарабатывай интернет#eurusd#прогноз рынка форекс#как заработать в интернете#торговый робот#трейдер#криптовалюта#торговля с нуля#обучение трейдингу
0 notes
Text
Что такое AML или Big Data и Machine Learning против отмывания денег
Сегодня мы продолжим разговор про антифрод-системы и расскажем, как аналитика Big Data и модели Machine Learning помогают бороться с отмыванием денег. Читайте в нашей статье, зачем нужен светофор транзакций, что такое AML-системы и при чем тут графы больших данных.
Светофор транзакций и Big Data в антифрод-системах
Сначала рассмотрим, как работают антифрод-системы. Прежде всего транзакция оценивается по критериям ограничений и фильтрам, о которых мы писали здесь. В частности, проверяется соответствия суммы платежа установленному лимиту, попадание IP-адреса плательщика в привычный регион пользования, корреляция с ранее выявленными шаблонами клиентского поведения и т.д. По результатам такого анализа транзакция маркируется одной из следующих цветовых меток [1]: · зеленым помечены операции с низкой вероятностью мошенничества; желтым отмечаются подозрительные транзакции с шансом мошенничества выше среднего, поэтому для проведения платежа необходимо дополнительное внимание; красный цвет сигнализирует о высокой вероятности мошенничества, поэтому для осуществления таких платежей требуется документальное подтверждение аутентичности владельца карты. С точки зрения технологий Big Data антифрод-системы включают следующие возможности [2]: текстовая аналитика для поиска, категоризации контента и извлечения сущностей, например, с помощью Apache Solr или Amazon Elasticsearch; расчет статистических параметров для выявления отклонений, которые указывают на вероятность мошенничества; графовая аналитика для идентификации взаимосвязей и выявления закономерностей; Gap-тестирование для обнаружения недостающих элементов в цепочке последовательных данных; подтверждение ��аты входа для оценки неподходящего или подозрительного времени ввода информации; модели машинного обучения на основе исторических данных, чтобы кластеризовать особенности пользовательского поведения для формирования шаблонов, а также выявления новых аномалий. Может быть реализовано на базе Apache Spark MLLib. Для повышения точности аутентификации владельца карты некоторые антифрод-системы также подключают биометрические модули, чтобы с помощью Machine Learning алгоритмов распознавания речи идентифицировать личность владельца карты [2]. Многие из вышеперечисленных методов активно применяются не только для предупреждения мошенничеств на уровне одного пользователя, но и в гораздо больших масштабах. В частности, аналитика больших данных и машинное обучение помогают расследовать финансовых махинаций по отмыванию денег и выявлять преступные цепочки. Как это устроено, мы рассмотрим далее.
Как работает AML: графовая аналитика больших данных и Machine Learning
Ежегодный объем отмываемых доходов оценивается минимум в 2-5 % мирового ВВП, что составлет от $800 млрд до $2 трлн. Отмывание денег – это маскировка или скрытие источника происхождения средств с помощью специальных инструментов и приемов: распыление, обналичка, подтасовка и пр. Обычно после зачисления на счёт финансы проходят сложный путь из множества операций прежде чем попадут в активы, не вызывающие подозрений. Преступники используют любые недостатки глобальной финансовой системы, чтобы запутать следы [3]. Инструменты против отмывания денег, полученных преступным путем, финансирования терроризма и создания оружия массового уничтожения принято называть AML (Anti-Money Laundering). Оставив за рамками данной статьи юридические тонкости, сосредоточимся на технических задачах этой работы и методах ее решения с помощью технологий Big Data и Machine Learning. В этом случае основной целью AML можно считать скорейшее выявление компании, которая с большой долей вероятности занимается отмыванием доходов. При этом необходимо соблюсти баланс между полнотой определения преступлений и долей ложных срабатываний [4]. Таким образом, технологии больших данных и машинного обучения в AML задействованы в следующих процессах [3]: • выявление подозрительных схем от обнаружения нарушений до отправки отчётности; • валидация для ��втоматизации обновления ML-моделей (управление и оптимизация); • сигнализация о необходимости ручных проверок для сложных или узкоспециализированных расследований с участием человека, например, связанных с международными криминальными организациями.
Процессы AML, в которых используются технологии больших данных и машинного обучения Для этого используются следующие средства науки о данных (Data Science) [3]: • обогащение данных - автоматическое агрегирование истории о транзакциях, сведений о клиентах и геоданных. • скоринг предупреждений - байесовские алгоритмы для сравнительного ранжирования всех объектов исследования; • оценка клиентских рисков - логистическая регрессия для эмпирической оценки риска причастности клиента к отмыванию; • автоматизированная разработка сценариев – деревья решений для проектирования логики обнаружения подозрительных случаев; • сегментация и отклонение от группы – алгоритмы машинного обучения без учителя для выявления поведения объекта, не свойственного для прочих ему подобных; • обнаружение редких событий – модели Machine Learning кластеризации для поиска объектов, похожих на исследуемый, например, по спискам подозрительных клиентов, которые рассылают регуляторы; • распознавание образов – применение когнитивных вычислений для идентификации и классификации товарно-сопроводительных документов. При этом средства графовой аналитики способны выявить не только взаимосвязи между различными контрагентами в рамках преступной схемы оптимизации налогов, когда финансы размываются между фирмами-однодневками и офшорными счетами. Также такие технологии больших данных могут определить синтетические учетные записи, когда идентификационная информация о контрагенте собрана у множества разных физических и юридических лиц. Например, преступник смешивает и сопоставляет номера СНИЛС, адреса, телефоны и электронную почту, чтобы создать искусственные удостовере��ия личности, которые затем используются для открытия банковских счетов и новых кредитных карт, а также личных кредитных линий. Графовая аналитика Big Data позволяет проследить путь от одного счета к другому, чтобы предупредить или раскрыть такое преступление по «горячим следам» [5].
Пример мошеннической сети с синтетическими учетными записями Другие практические кейсы цифровизации государственного управления и примеры реального бизнеса вы узнаете на наших образовательных курсах в лицензированном учебном центре обучения и повышения квалификации руководителей и ИТ-специалистов (менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data) в Москве: Аналитика больших данных для руководителей
Смотреть расписание занятий
Зарегистрироваться на курс Источники 1. https://www.securitylab.ru/blog/personal/Informacionnaya_bezopasnost_v_detalyah/339929.php 2. https://www.anti-malware.ru/analytics/Market_Analysis/anti-fraud-Bank-systems 3. https://www.sas.com/ru_ua/insights/articles/risk-fraud/anti-money-laundering-counter-terrorist-financing.html 4. https://onedrive.live.com/view.aspx?resid=27F1171C07AE9485!11805&cid=27f1171c07ae9485&authkey=!AF8kf_2loPBYujg 5. Линник Е. В. Графовая аналитика для решения ключевых проблем в банковской сфере // Молодой ученый. — 2018. — №52. — С. 128-134. — URL https://moluch.ru/archive/238/55116/ (дата обращения: 02.04.2020) Read the full article
#BigData#MachineLearning#банк#Большиеданные#МашинноеОбучение#предиктивнаяаналитика#Цифроваятрансформация#цифровизация
0 notes
Text
Как найти товарные остатки с помощью Big Data и Machine Learning: пример Леруа Мерлен
Чтобы наглядно показать, как аналитика больших данных и машинное обучение помогают быстро решить актуальные бизнес-проблемы, сегодня мы рассмотрим кейс компании Леруа Мерлен. Читайте в нашей статье про нахождение аномалий в сведениях об остатках товара на складах и в магазинах с помощью моделей Machine Learning, а также про прикладное использование Apache Kafka, NiFi, AirFlow, Greenplum, MongoDB, Tarantool, Kubernetes и прочих технологий Big Data.
Где товар или постановка задачи от бизнеса: проблемы, возможности и ограничения
Проблема оперативной инвентаризации товаров, доступных для продажи прямо сейчас, актуальна для любого торгового предприятия. В Леруа Мерлен она усугублялась тем, что помимо сети крупных супермаркетов, в компании также есть склады и так называемые дарксторы. Заказы из интернет-магазинов могут собираться из всех трех торговых баз (супермаркет, склад, даркстор). Но на практике с целью оптимизации доставки, 98% заказов, сделанных на сайте, собираются из торговых залов офлайн-магазина. При этом очень часто пользователи сайта и сборщики заказов сталкиваются с тем, что товар отображается в наличии, хотя на самом деле он уже недоступен для продажи. Например, лежит в корзине у покупателя, находится не на своем месте в торговом зале, спрятан, украден, проп��л и т.д. В любом случае, быстро найти нужную вещь из 40 тысяч товаров на 8 000 квадратных метрах, не всегда получается. Поэтому было принято решение показывать в интернет-магазине количество товара, которое чуть меньше того, что есть в действительности, чтобы гарантировать клиенту наличие товара и возможность доставить его в срок. При этом требовалось сократить количество несобранных заказов, не уменьшив общее число заказов и сохранить товарооборот в интернет-магазине. На этапе анализа данных выяснилось, что расхождение между реальным и фактическим количеством товаров возникает по следующим причинам [1]: · некорректное внесение информации о выставочных образцах (Экспо), которые помечены как доступные к продаже. Однако на самом деле гарантия на них не распространяется, магазин не может их продать, поэтому клиент не должен иметь возможность заказать их. Например, в поле «Экспо» отмечено 0, а в поле «Доступный для продажи» - 1, хотя в на самом деле все наоборот. · обратная ситуация, когда у товара слишком много выставочных образцов и мало доступных для продажи.
Как Machine Learning ищет аномалии в товарных остатках
Было решено находить аномальные значения и делать поправку на них перед публикации данных о количестве товаров на сайте. С учетом большого числа магазинов (107 на июль 2020 года) и огромного разнообразия товаров, линейные алгоритмы не справлялись бы такой задачей. Поэтому была разработана модель машинного обучения, которая определяет вероятность некорректных данных о товарных остатках в каждом магазине. Отметим некоторые особенности реализации такого алгоритма Machine Learning [1]: · для предсказаний используется метод градиентного бустинга на деревьях решений с помощью CatBoost – open-source библиотеки машинного обучения от Яндекса [2]; · в качестве обучающей выборки используются результаты ежедневной и ежегодной инвентаризаций, а также данные по отмененным заказам; · модель использует около 70 предикторов, среди которых данные о последних движениях данного товара в магазине, продажах, возвратах и заказах, номенклатуре, характеристиках товара; · для проверки качества и подбора геперпараметров модели, данные были разбиты на тестовую и валидационную выборки в соотношении 80/20. При этом модель обучалась на исторических данных, а проверялась на новых; · сама модель Machine Learning и данные для ее обучения версионируются и хранятся в облачном хранилище Amazon S3.
Архитектура системы: Apache Kafka, NiFi, AirFlow, Tarantool, Greenplum и другие Big Data фреймворки
Обучение модели Machine Learning проводится на датасете, который сформирован из показателей операционных и продуктовых систем компании. Эта информация хранится в корпоративном озере данных (Data Lake), развернутом на СУБД Greenplum. На основе этих данных рассчитываются предикторы для машинного обучения, которые хранятся в СУБД MongoDB. Эта документо-ориентированная NoSQL база данных позволяет организовать быстрый доступ к нужной информации. Обмен данными между Greenplum и MongoDB организован с помощью пакетных и потоковых ETL-инструментов Apache AirFlow и NiFi. Сама модель Machine Learning реализована в виде Python-приложения, Docker-контейнер которого которое развернут в Kubernetes. Информация о текущем состоянии запасов товара в магазине поступает из прикладных систем в Apache Kafka. Из топиков Кафка алгоритмы машинного обучения считывают данные и обрабатывают их. Кроме роли брокера сообщений, Kafka также используется в качестве корпоративной шины (ESB, Enterprise Serial Bus), объединяя разные приложения-источники данных. Также в рассматриваемой Big Data системе используется резидентная СУБД Tarantool, которая поддерживает SQL-запросы и ACID-транзакции, обеспечивая высокую скорость распределенных вычислений. Именно Tarantool является хранилищем результатов ML-моделирования, предоставляя их для конечных пользователей сайта и мобильного приложения Леруа Мерлен [1]. Тестирование рассмотренной системы на базе технологий Big Data и Machine Learning в 6 разных магазинах торговой сети показало следующие результаты [1]: · сокращение количества несобранных заказов на 12%; · рост товарооборота и количества заказов на сайте; · обученная модель подходит не только для редактирования сведений о товарных остатках перед их публикацией на сайте, но и для оперативной инвентаризации. В частности, она позволяет проверить наличие конкретных товаров для каждого отдела любого магазина, за которыми должны прийти клиенты. Подробно этот кейс рассмотрен в видеозаписи доклада Марины Калабиной, которая выполняла обязанности product-owner’а в данном проекте [3]. Сам доклад был представлен 30 июня 2020 года на онлайн-митап Avito.Tech для аналитиков [4]. Как на практике использовать Apache Kafka, NiFi, AirFlow и Greenplum для эффективной аналитики больших данных с помощью моделей Machine Learning в рамках проектов цифровизации своего бизнеса, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве: · Аналитика больших данных для руководителей · Интеграция Hadoop и NoSQL · Kafka Streams для разработчиков · Kafka интеграция для разработчиков · Эксплуатация Arenadata DB · Apache AirFlow · Кластер Apache NiFi А ос��оить Python для прикладных Data Science проектов вы сможете на наших новых корпоративных курсах для разработчиков Big Data и аналитиков больших данных: · Подготовка данных для Data Mining на Python · Введение в машинное обучение на Python · Введение в Нейронные сети на Python Источники 1. https://habr.com/ru/company/leroy_merlin/blog/510138/ 2. https://habr.com/ru/company/yandex/blog/458790/ 3. https://www.youtube.com/watch?v=qh1eH1hagqk&feature=youtu.be 4. https://avitotech.timepad.ru/event/1338890/ Read the full article
#AirFlow#BigData#DataLake#Docker#ETL#Greenplum#Kafka#Kubernetes#MachineLearning#NiFi#NoSQL#SQL#Tarantol#архитектура#Большиеданные#контейнеризация#МашинноеОбучение#обработкаданных#ритейл#Цифроваятрансформация#цифровизация
0 notes