Подпишитесь, чтобы получать новые статьи
ПодписатьсяYandex DataLens — российское BI-решение для тех, кто строит корпоративные аналитические системы, создает дашборды для продуктовой, управленческой и других типов отчетности. Сервис анализирует и визуализирует данные для принятия более эффективных управленческих решений. В ходе практических вебинаров компании «Ёлва» по данному решению участники задавали нам вопросы о возможностях продукта. Этот материал мы посвятим ответам на популярные вопросы о DataLens.
Как давно DataLens находится в промышленной эксплуатации?
Сервис находится в стадии общедоступной версии c 1 октября 2019. DataLens используется многими компаниями, в том числе в промышленной эксплуатации, а также постоянно развивается.
Как производить обработку некачественныхнеполных данных в DataLens? Как проводить очистку данных?
В DataLens отсутствует раздел или этап работ, где можно менять данные. Данные из источника загружаются AS IS (в состоянии как есть).
Однако можно устанавливать подключение к выбранной промежуточной базе данных, например через Yandex Database, в которую предварительно будут копироваться данные из первичного источника данных. В ней пользователь может менять значения данных, в отличие от основной базы.
На уровне SQL (диалекта YQL) запроса в базе или на уровне подзапроса из DataLens пользователь обрабатывает данные по заданным аналитиком алгоритмам: использовать SQL запрос, задача которого очищать обрабатывать данные, устранять дубли и т.д. Этот запрос будет работать для SQL баз данных, но не для CSV-файлов.
Используйте эту инструкцию, чтобы добавить данные в датасет с помощью SQL-запроса иили эту для обновления данных с помощью UPDATE.
Только заявленные заказчиком ошибки, а значит, продуманные аналитиком и зафиксированные алгоритмы обработкиочистки данных будут работать. Искусственный интеллект не будет применен. При появлении неожиданных ранее данных или ошибок в данных, ошибки не будут исправлены автоматически, потребуется доработка аналитиком иили программистом.
Какие названия стран и городов можно использовать в DataLens? Необходимо ли приводить названия к стандартным?
Название страны или города ограничивается списком топонимов. Посмотреть его можно здесь. Относительно Российской Федерации отметим, что сервис распознаёт наименование страны в единственном варианте: «Россия».
Можно ли установить фильтры для всех вкладок дашборда или на второй вкладке фильтры надо устанавливать отдельно?
К сожалению, в DataLens пока отсутствует техническая возможность установить единые фильтры для всех вкладок дашборда.
Как сравнить издержки на производство для двух стран за год в разрезах месяцев?
Для этого необходимо выполнить следующие действия:
- Создайте CSV-подключение
- Откройте датасет
- Нажмите «+ Добавить поле»
- Слева нажмите на «Количество», введите символ умножения, нажмите на «Цена продажи», назовите «Выручка», сохраните
- Создайте чарт, кнопкой справа вверху
- Выберите тип чарта «Линейная диаграмма»
- В поле «Х» переместите дату
- В поле «Y» переместите выручку
- В поле «Цвета» переместите страну
В итоге получаем следующий результат:
Предусмотрены ли ограничения по экспорту данных из чартов в дашборде для пользователей?
Нет. В рамках сервиса возможно только ограничить доступы к полям, например, по стране.
Возможен ли дата-майнинг в DataLens?
Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных или просто майнинг данных) — это процесс, используемый компаниями для превращения необработанных больших данных в полезную информацию. Также для этой технологии используется термин «обнаружение знаний в данных» или KDD (knowledge discovery in databases). Data Mining представляет собой процесс глубокого погружения в эти данные для извлечения ключевых знаний.
В рамках DataLens данный процесс при помощи искусственного интеллекта автоматически не происходит. Готовый дата майнинг реализован в рамках других сервисов Yandex Cloud.
Настроить этот процесс возможно с применением ресурса аналитиков, в частности с помощью команды экспертов компании «Ёлва».
Интегрирован ли DataLens с Искусственным интеллектом? Есть ли опыт такого использования и каковы результаты?
Такая интеграция на данный момент на этапе проектирования компанией Yandex.
Планируется ли решение DataLens on-premise, то есть локально на серверах клиента?
Решение DataLens предоставляется только в облачном варианте.
Имеется ли сервис в Yandex, который работает совместно с DataLens, и позволяет обрабатывать и распознавать неоцифрованные данные (pdf, jpg)?
Простой ответ: да. Для этого пользователи могут использовать сервис Yandex Vision.
Чтобы распознать текст с изображения или из PDF-файла, воспользуйтесь функцией Распознавания текста.
Здесь имеются ограничения по файлам: размер изображения не может превышать 1 МБ и не более 20 мегапикселей (длина х ширина). Количество страниц в PDF не более 8 страниц.
Сервис Yandex Vision предоставляет API для получения результатов. Информации о наличии подключения по API из DataLens на данный момент нет.
Предположительно, имеется подключение по API в Yandex Database, через облачную базу данных. Тогда DataLens может подключиться уже к этой базе, которая по API получит из Yandex Vision обработанные данные.
Как решается вопрос по обновлению и изменению данных в источниках? Данные постоянно обновляются. Соответственно, как обновленная информация появляется в DataLens?
Внутри сервиса предусмотрены два режима работы:
- Прямой доступ: все запросы к данным исполняются на стороне источника, то есть в базе данных. Данные обновляются в режиме реального времени.
- Материализация: процесс загрузки данных из источника в базу данных DataLens. Материализация может происходить периодически по расписанию, минимальный интервал — не чаще 1 раза в день.
По аналогии с Power BI и такими же режимами работы (DirectQuery или Импорт) предполагаются ограничения производительности и скорости отображения чартов, дашбордов, выполнения запросов при Прямом доступе.
Каковы ограничения и ключевые отличия данных двух режимов работы?
Если источник данных — это внутренняя база данных, рекомендуется использовать режим «прямой доступ». Время отработки чартов в большей степени зависит от времени реакции БД на аналитические запросы. Поэтому эксперты советуют:
- использовать аналитическую структуру данных в БД (большая денормализованная таблица или схемы типа «звезда», «снежинка»);
- использовать БД, предназначенную или настроенную под аналитические запросы (например, Managed Service for ClickHouse);
- следить за сайзингом и выделением ресурсов на уровне БД (Скорость и конкретные запросы, отправляемые в БД), мониторинг возможен через «инспектор чартов», «меню» в правом верхнем углу от чарта.
Отметим, что сервис имеет некоторые ограничения по возможностям, однако компания Yandex занимается постоянным развитием инструмента и расширением функционала. Инструмент предлагает различные продукты для аналитики: коннекторы, датасеты, геослои и другие. DataLens — это достойный аналог Power BI и качественный инструмент визуализации. Команда экспертов «Ёлва» отмечает: DataLens — самый продвинутый инструмент с наибольшим потенциалом развития. Наша компания рекомендует данное решение для работы с BI-аналитикой в России и СНГ.
На нашем YouTube-канале вы найдёте обучающие ролики по продукту.
А если вам нужна помощь с комплексным проектом, наша команда готова помочь в реализации даже самых сложных задач. Свяжитесь с нами: request@yolva-it.ru
Добавить комментарий