ClickHouse внедрение в корпоративной среде компании Маревен Фуд Сэнтрал. Использование платформы для анализа данных в сегменте FMCG.

Команда Ёлва

Подпишитесь, чтобы получать новые статьи

Подписаться

«Маревен Фуд Сэнтрал» – российская дочерняя компания международной группы Mareven Food Holdings Ltd., специализирующейся на прямых инвестициях в разработку, производство, дистрибуцию продуктов питания и напитков. География поставок продукции «Маревен Фуд Сэнтрал» включает все 85 субъектов Российской Федерации и семь стран мира.

Лидерство на рынке требует определенных обязательств. Ежедневно в режиме нон-стоп необходимо отслеживать и анализировать рынок: конкуренты, спрос, ценообразование. Ключевую роль здесь играет система бизнес-аналитики – анализ первичных и вторичных продаж, трейд-маркетинговые активности и их влияние на производство и продажи и тп.

Предпосылки:

По мере того, как росла автоматизация сегмента FMCG в России, появлялись новые источники данных. Объединение этих данных постепенно стало одной из главных задач департамента бизнес-аналитики в нашей компании.

Ни для кого не секрет, что тот, кто владеет информацией — владеет миром. Информация стоит очень дорого, ее количество постоянно растет, ее нужно собирать, хранить, анализировать и приводить к единому виду. По мере роста данных, которые получала компания, департамент бизнес-аналитики начал сталкиваться с тем, что мобирование системы хранения данных либо станет слишком затратным и сложным, либо вообще невозможным.

Немного в цифрах:

На сегодняшний день в хранилище в постоянном доступе мы анализируем порядка 2 млрд строк, ежемесячный прирост в 2023 году составляет 150–200 млн строк. С данными процессами работают от 30 до 50 сотрудников.

Изначально все это было реализовано на обычной реляционной базе данных, построенной на базе Microsoft SQL Server. По мере роста данных мы стали сталкиваться со сложностями масштабирования и другими проблемами. Но все же основное, что нас не устраивало:

  • Производительность системы отчетности
  • Сложность масштабирования системы хранения данных
  • Стоимость инфраструктуры

Поиск решения:

Примерно с середины 2021 года мы начали искать альтернативы, как систем хранения данных, так и систем аналитики. При выборе мы учитывали следующие факторы:

  • структура данных
  • структура запросов
  • объем данных к выдаче
  • частота изменения/дополнение данных
  • использование локальной инфраструктуры

Иными словами, мы понимали, что нам нужна платформа, которая будет работать со структурированными данными. Проанализировав все варианты и предложения, существующие на рынке, мы поняли, что нам необходимо колоночное хранение наших данных, т. е. структурное OLAP решение на базе провайдера. Также мы поняли, что нам необходим еще один компонент отчетности, для того чтобы работать с колоночными хранилищами, до этого мы использовали только Power BI и возможности размещения в нашем локальном  дата центре.

Наш выбор – ClickHouse. Почему?

Основные причины для выбора ClickHouse:

  • Скорость развертывания
  • Отсутствие лицензирования
  • Интеграционные возможности
  • Простота масштабирования
  • Работает в режиме реального времени

ClickHouse развертывается очень быстро. Чтобы добавить мощности в кластер ClickHouse, нужно просто развернуть еще одну машину (виртуальную машину). Интеграционные возможности очень обширные, за счет существования различных типов интерфейсов подключения к данной системе, ее можно интегрировать с чем угодно. Необходимо отметить очень простой и понятный механизм интеграции в текстовых или SSP файлах. Отсутствие лицензирования – приятный бонус.

Выбор дополнительного компонента

Идеальным компонентом для интеграции с ClickHouse является Yandex DataLens, во-первых это бесплатное решение и простое в использовании, во-вторых и ClickHouse и DataLens изначально являлись продуктами одного производителя. Но, к сожалению, по причине того, что Yandex DataLens является облачным решением, нам пришлось от него отказаться. Если в вашем бизнесе нет скепсиса по отношению к облаку, то связка ClickHouse + Yandex DataLens – идеальное решение.

В качестве дополнительного компонента мы в итоге выбрали Apache Superset.

Причинами выбора стали:

  • Скорость работы
  • Кастомизация пользовательских запросов
  • Удобная интеграция с ClickHouse

Техническое решение в нашей компании

ClickHouse состоит из кластера трех серверов, все сервера работают на системе Ubuntu Server 20.04. Помимо самого ClickHouse, есть система управления репликами и запросами, которая построена на Apache ZooKeeper и сервер управления фронтендом Apache Superset. Хотя у нас также остался и Power BI, с которым мы работаем параллельно, но постепенно будем уходить от него.

Первые результаты

Результаты не заставили себя ждать. Можно долго расписывать все положительные стороны использования колоночной системы, ниже мы просто перечислим те плюсы, которые ощутили конкретно на себе:

  • Сокращение времени выдачи отчета до 100 раз. Длительность снизилась с 1,5 часов, до 1,5 минут. Мы получаем такой же объем структурированных данных всего за 1,5 минуты в отличие от реляционной системы, где на это уходило 1,5 часа.
  • Сжатие данных сократило объем дискового пространства на 30%. ClickHouse обладает очень продвинутыми алгоритмами сжатия данных, что никак не влияет на скорость работы системы. И те же самые данные, хранящиеся на SQL Server, при правильной организации, займут на 30% меньше места.
  • Увеличилась гибкость работы с данными для конечного пользователя.
  • Повысилась отказоустойчивость системы. На момент миграции, когда мы еще продолжали работать с системой, базирующейся на SQL Server и Power BI, в системе отчетности часто получали тайм-аут из-за того, что сервер не дожидался ответа от самой инфраструктуры хранилищ. После начала использования ClickHouse подобного не случается, все происходит четко и быстро.

Подводные камни

Нам пришлось разворачивать всю систему на локальной инфраструктуре, а значит вся ответственность была на нас: как настроить, как сконфигурировать. Для этого в компании должно быть несколько квалифицированных специалистов по системам Linux. Нужно устанавливать дополнительное ПО для репликации и распределенных запросов, без этого никакого смысла работать с ClickHouse нет, потому что вы не получите никакой выгоды от него. Самостоятельно необходимо настроить системы интеграции с системами визуализации данных. Если у вас раньше были интеграционные системы, построенные на продуктах, например, Microsoft, то придется частично переписать пакеты уже базируясь на системах Open Source. Обеспечение бесперебойной работы системы ляжет на вас и ваших специалистов.

Как избежать подводных камней. Несколько советов

Базируясь на нашем опыте, хотелось бы отметить:

  • По возможности все-таки использовать облачные способы развертывания. Сегодня на уровне Yandex Cloud вы имеете возможность в два три клика развернуть ClickHouse и подключить к нему DataLens. Плюс еще в пять кликов настроить vpn на свою собственную инфраструктуру, для того чтобы иметь возможность передавать данные из ваших систем непосредственно в Yandex Cloud. Все то, что мы получили за несколько месяцев работы, вы можете получить в течение одной недели. И за отказоустойчивость и мониторинг системы у вас будет отвечать компания Yandex, или любой другой провайдер, которого вы выберете.
  • Оптимизируйте структуру данных для OLAP сценариев. Если вы пойдете в облако, это очень важно. Чем лучше оптимизированы ваши данные и приспособлены под колоночные инфраструктуры, тем меньше места они будут занимать, быстрее будут пролетать через vpn, меньше будут ежемесячные расходы на поддержку облачной инфраструктуры.
  • Планируйте процесс трансформации данных. Например: подготовка данных осуществляется на «земле», а в последствии транслируется в облако для подготовки отчетов.

Компания «Ёлва» имеет большой опыт во внедрение ClickHouse не только в сегменте FMCG, но и в крупных производственных компаниях, и в финансовом секторе. Наши специалисты бесплатно проконсультируют и продемонстрируют все возможности платформы и интеграций с ней. А также сделают аудит текущей инфраструктуры. Обращайтесь к нам по телефону, через форму обратной связи на сайте или по электронной почте.

Управление данными — не роскошь, а необходимость.

#B2B#BI#Big data#DataLens#FMCG

Подпишитесь на наши статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *