Перейти к основному содержанию
Перейти к основному содержанию

Интеграция Azure Synapse с ClickHouse

ClickHouse Supported

Azure Synapse — это интегрированный аналитический сервис, который объединяет большие данные, data science и хранилища данных, обеспечивая быструю аналитику в крупном масштабе. В Synapse пулы Spark предоставляют масштабируемые по запросу кластеры Apache Spark, которые позволяют пользователям выполнять сложные преобразования данных, задачи машинного обучения и интеграции с внешними системами.

В этой статье вы узнаете, как интегрировать коннектор ClickHouse Spark при работе с Apache Spark в Azure Synapse.

Добавление зависимостей коннектора

Azure Synapse поддерживает три уровня управления пакетами:

  1. Пакеты по умолчанию
  2. Уровень пула Spark
  3. Уровень сессии

Следуйте руководству Manage libraries for Apache Spark pools и добавьте следующие необходимые зависимости в ваше приложение Spark:

Ознакомьтесь с документацией Spark Connector Compatibility Matrix, чтобы подобрать версии, соответствующие вашим требованиям.

Добавить ClickHouse как каталог

Существует несколько способов добавить конфигурации Spark в ваш сеанс:

  • Пользовательский файл конфигурации, загружаемый вместе с сеансом
  • Добавить конфигурации через интерфейс Azure Synapse
  • Добавить конфигурации в блокноте Synapse

Следуйте руководству Manage Apache Spark configuration и добавьте обязательные для коннектора конфигурации Spark.

Например, вы можете настроить сеанс Spark в блокноте со следующими параметрами:

%%configure -f
{
    "conf": {
        "spark.sql.catalog.clickhouse": "com.clickhouse.spark.ClickHouseCatalog",
        "spark.sql.catalog.clickhouse.host": "<clickhouse host>",
        "spark.sql.catalog.clickhouse.protocol": "https",
        "spark.sql.catalog.clickhouse.http_port": "<port>",
        "spark.sql.catalog.clickhouse.user": "<username>",
        "spark.sql.catalog.clickhouse.password": "password",
        "spark.sql.catalog.clickhouse.database": "default"
    }
}

Убедитесь, что это находится в первой ячейке, как показано ниже:

Настройка параметров Spark через notebook

Перейдите на страницу ClickHouse Spark configurations для получения дополнительных настроек.

Справочные материалы

При работе с ClickHouse Cloud обязательно задайте обязательные параметры Spark.\

Проверка настройки

Чтобы убедиться, что зависимости и конфигурации были успешно настроены, перейдите в Spark UI вашего сеанса и откройте вкладку Environment. Там найдите параметры, связанные с ClickHouse:

Проверка настроек ClickHouse с помощью Spark UI

Дополнительные ресурсы