Функция таблицы urlCluster
Позволяет обрабатывать файлы из URL параллельно с нескольких узлов в указанном кластере. На узле-инициаторе она устанавливает соединение со всеми узлами кластера, раскрывает символ «звёздочка» в пути URL к файлам и динамически распределяет каждый файл. На рабочем узле она запрашивает у инициатора следующую задачу и обрабатывает её. Это повторяется до тех пор, пока все задачи не будут выполнены.
Синтаксис
Аргументы
| Аргумент | Описание |
|---|---|
cluster_name | Имя кластера, используемое для формирования набора адресов и параметров подключения к удалённым и локальным серверам. |
URL | Адрес HTTP- или HTTPS-сервера, который может принимать запросы GET. Тип: String. |
format | Формат данных. Тип: String. |
structure | Структура таблицы в формате 'UserID UInt64, Name String'. Определяет имена и типы столбцов. Тип: String. |
Возвращаемое значение
Таблица заданного формата и структуры с данными из указанного URL.
Примеры
Получение первых трёх строк таблицы со столбцами типов String и UInt32 от HTTP-сервера, который отвечает в формате CSV.
- Создайте базовый HTTP-сервер с использованием стандартных инструментов Python 3 и запустите его:
Шаблоны (globs) в URL
Шаблоны в фигурных скобках { } используются для генерации набора шардов или указания резервных (failover) адресов. Поддерживаемые типы шаблонов и примеры см. в описании функции remote.
Символ | внутри шаблонов используется для указания резервных адресов. Они перебираются в том же порядке, в котором перечислены в шаблоне. Количество сгенерированных адресов ограничивается параметром glob_expansion_max_elements.