Yandex Data Proc — сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark™, Apache Hadoop®, Apache HBase, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Работы по обслуживанию кластеров

 

Наш блог

Смотреть все проекты

Преимущества Data Proc

Простота использования

Выберите размер кластера, мощность узлов и набор сервисов, а Data Proc автоматически создаст и настроит кластеры Spark, Hadoop и другие компоненты.

Аналитика данных

Автоматическое масштабирование

Data Proc использует группы виртуальных машин Instance Groups, чтобы автоматически наращивать или уменьшать вычислительные ресурсы compute-подкластеров на основе показателей загруженности процессоров.

Оплата

Низкая стоимость

Можно запустить кластер Data Proc, содержащий 10 узлов всего за 18 рублей в час. Еще можно экономить до 70% от стоимости виртуальных машин, выбирая прерываемые виртуальные машины.

Безопасное хранение данных

Data Proc заменяет вышедшие из строя узлы, перераспределяет нагрузку между ними автоматически и перезапускает задачи.

Полный контроль над кластером

Устанавливайте собственные приложения и библиотеки на работающих кластерах без необходимости их перезагружать.

Автоматизация задач

Сэкономьте время на построении ETL-пайплайнов и пайплайнов для обучения и разработки моделей, а также для описания других итерационных задач.

Давайте делать крутые проекты вместе!