Фабрика искусственного интеллекта – предпосылки, практика, перспектива

В целях масштабирования и совершенствования аналитических решений ведущие игроки используют концепцию MLOps:

  • 1.Цифровой двойник
  • Классические BI инструменты для более точного управления бизнес-процессами, например, создание виртуального прототипа реального объекта.

  • 2.Big Data технологии
  • Повышение эффекта от классических BI инструментов - становится все более значимым потенциал монетизации данных с использованием технологии BigData, продвинутой аналитики, машинного обучения.

  • 3.Сервисная модель - MLOps
  • Лавинообразный рост количества задач бизнеса к использованию решений с ИИ.
    Ключевые преимущества MLOps:
    - Сокращение TTM (time-to-market)
    - Масштабирумость

    Ниже рассмотрим "Запрос бизнеса к ИИ в Российской Федерации"

    Жизненный цикл модели:

    Как мы могли заметить раньше преобладал Классический путь внедрения модели:

  • Машинное обучение
  • Программировани+доставка в ПРОМ
  • Рассмотрим роли в рамках процесса создания Модели:

  • Бизнес/Функция
  • 1. Бизнес-заказчик - формирует требования для разрабатываемого решения, ответственен за интеграцию и реализацию бизнес-эффекта.
    2. Предметные эксперты формируют бизнес-гипотезы и проверяют результаты аналитики со стороны бизнес-опыта.
    3. Конечные пользователи предоставляют вводные по бизнес-процессу.

  • Подразделение аналитики
  • 1. Бизнес-Партнер - проводит синтез выводов, ответственен за постановку задач для Data Scientist и Инженеров Данных на основании требований бизнес-заказчика.
    2. Data Scientist - разрабатывает статические модели и алгоритмы.
    3. Data Engineer - адаптирует и интегрирует модели для применения.

    Так же, можно отметить несколько способов сокращения среднего времени разработки и внедрения решений:

    Конвейер MLOps с автоматизацией

  • Управление и контроль за исполняемыми версиями кода модели
  • Автоматизированное компонентное тестирование
  • Фреймворки и структурирование ML проектов
  • Надлежащий процесс разработки моделей машинного обучения, соответствующий agile-принципам и существующим ролям

  • Операционная модель в области машинного обучения, соответствующая agile-принципам
  • Сквозное планирование бэклога задач по разработке и внедрению модели ML
  • Автоматическое введение экспериментов и документации по коду модели
  • Обучение Data scientit-ов эффективным методам разработки ПО

  • Создание кода, который можно повторно использовать и адаптировать
  • Культура написания кода
  • Проверка кода коллегами
  • Разработка метрик мониторинга входных данных
  • Вывод:

  • Продуктом, создающим ценность для бизнеса является не только модель, но и технологическое решение по её применению в бизнес процессе.
  • Сервисная модель MLOps появляется в ответ на рост аппетита к ИИ.
  • Ключевые модели MLOps для решения возрастающего потока задач - сокращение TTM, повышение эффективности команд, масштабируемость.
  • Сервисная модель определяет ключевые компетенции, участвующие в разработке моделей и типовой процесс взаимодействия между ними.
  • Инструментарий для моделирования работает в связке с CI/CD инфраструктурой, адаптированной для внедрения моделей.
  • Рассмотрим фирму "Tele2" в качестве примера:

    Обзор:
    Чем больше времени проходит с момента появления данных, тем потенциальная выгода от их использования сильно уменьшается. Каппа-архитектура и потоковая обработка данных появилась в связи с необходимостью гарантировать минимальную задержку.

    Пример:
    Вы пришли в магазин и оформляете кредит на покупку телефона. Вы хотите получить его на выгодных условиях. И банк хочет дать кредит проверенному клиенту. Временное окно, в течение которого вам нужны кредитные деньги, относительно короткое.

    Преимущества системы "Tele2":

  • Чрезвычайно низкие затраты на разработку;
  • Решение всех необходимых задач по доставке кода;
  • Единая точка управления продуктами;
  • Единый пункт отказоустойчивости и контроля.
  • "Для поддержки потоковых приложений мы хотели сохранить тот же способ автоматизации, единую точку контроля, что и для пакетных приложений, а также минимизировать количество используемых ресурсов."

    Концепт:

  • Автоматизация потоковых приложений не должна отличаться от автоматизации пакетных приложений.
  • Сборка Scala приложений "на лету" из репозитория.
  • Приложения Scpark Streaming блокируют консоль после выполнения spark-submit.
  • Состояние джобы можно мониторить через Yarn CLI
  • Если приложение не работает, мы так же должны повторно выполнить spark-submit, чтобы перезапустить приложение.
  • Доработка генерации DAG
    Достаточно добавить поддержку генерации SSH-оператора для нашей системы автоматизации, которая позволит проверить состояние задания.

    Конфигурация YAML
    Доработка позволяет определить команду для удаленного выполнения и дополнительные контейнеры для Pod`a, которые могут подключать дополнительную логику.

    А так же рассмотрим MPP подход в AutoML задачах


    Эволюция построения моделей. Запрос на AutoML.
    В настоящее время трудно получить конкурентное преимущество на рынке за счёт улучшения только моделей. Большинство SOTA-алгоритмов доступно в виде open-source библиотек. В то же время существует множество других областей для получения преимущества.

  • 1.Данные:
    Обширный периметр разнообразных данных.
  • 2.Операционная эффективность:
    AutoML для быстрого построения моделей.
  • 3.Корректность:
    Точность и актуальность прогнозов.
  • 4.Консистентность:
    Стабильность прогнозов в каждый момент времени.
  • Что такое AutoML?

    Автоматическое машинное обучение (AutoML) - это процесс автоматизации сквозного процесса применения машинного обучения к задачам реального мира.
    Даёт преимущество получения более простых решений, более быстрого создания таких решений и моделей, которые не уступают простроенных вручную.

  • 1.Подготовка данных и сбор, и сохранение данных из сырых данных и разнообразных форматов
  • Конструирование и отбор признаков
  • Выбор модели и оптимизация гиперпараметров алгоритма обучения
  • Выбор метрик оценки и процедур валидации
  • Мотивация использования MPP подхода:

  • Задержка отклика реализации целевой переменной
  • Нерегулярность обновления данных
  • Поддержание стабильности и консистентности построенных моделей
  • Операционная эффективность построения и обновления моделей
  • Model Performance Predictor


    Model Performance Predicto (MPP) - подход построения вспомогательной, мониторинговой, модели для предсказания качества работы основной.
    Целевая переменная MPP - это метрика качества работы основной модели.

  • 1.Универсальность:
    Применим к любым задачам и моделям
  • 2.Простора построения:
    Не требует дополнительных данных
  • 3.Фокус на конкретную модель:
    Контроль модели с точки зрения целевой переменной
  • 4.Оперативность:
    Актуальность прогнозов при любом обновлении данных
  • Результаты применения MPP-подхода в AutoML-задачах

    Mpp модель оценивает совместное распределение факторов с точки зрения работы основной модели, реагируя не на величину изменений в распределениях отдельных слоёв данных, а на общий сдвиг качества работы основной модели.

  • 1.Простота и скорость построения моделей, обеспечивается AutoML-алгоритмами.
  • 2.Релевантность моделей проверяется с помощью MPP-мониторинга.
  • 3.Консистентность моделей обеспечивается корректными триггерами обновления основной модели.
  • 4.Актуализация и дообучение MPP-модели возможно в любой момент.
  • 5.Построение MPP-модели не требует дополнительной информации кроме исходных выборок.
  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *