BSONEachRow
| Вход | Выход | Псевдоним |
|---|---|---|
| ✔ | ✔ |
Описание
Формат BSONEachRow разбирает данные как последовательность документов в формате Binary JSON (BSON) без каких-либо разделителей между ними.
Каждая строка представлена одним документом, а каждый столбец — одним полем BSON-документа, где в качестве ключа используется имя столбца.
Соответствие типов данных
При выводе используется следующее соответствие между типами ClickHouse и типами BSON:
| Тип ClickHouse | Тип BSON |
|---|---|
| Bool | \x08 boolean |
| Int8/UInt8/Enum8 | \x10 int32 |
| Int16/UInt16/Enum16 | \x10 int32 |
| Int32 | \x10 int32 |
| UInt32 | \x12 int64 |
| Int64/UInt64 | \x12 int64 |
| Float32/Float64 | \x01 double |
| Date/Date32 | \x10 int32 |
| DateTime | \x12 int64 |
| DateTime64 | \x09 datetime |
| Decimal32 | \x10 int32 |
| Decimal64 | \x12 int64 |
| Decimal128 | \x05 binary, \x00 подтип binary, размер = 16 |
| Decimal256 | \x05 binary, \x00 подтип binary, размер = 32 |
| Int128/UInt128 | \x05 binary, \x00 подтип binary, размер = 16 |
| Int256/UInt256 | \x05 binary, \x00 подтип binary, размер = 32 |
| String/FixedString | \x05 binary, \x00 подтип binary или \x02 string, если включена настройка output_format_bson_string_as_string |
| UUID | \x05 binary, \x04 подтип uuid, размер = 16 |
| Array | \x04 array |
| Tuple | \x04 array |
| Named Tuple | \x03 document |
| Map | \x03 document |
| IPv4 | \x10 int32 |
| IPv6 | \x05 binary, \x00 подтип binary |
При вводе используется следующее соответствие между типами BSON и типами ClickHouse:
| Тип BSON | Тип ClickHouse |
|---|---|
\x01 double | Float32/Float64 |
\x02 string | String/FixedString |
\x03 document | Map/Named Tuple |
\x04 array | Array/Tuple |
\x05 binary, \x00 двоичный подтип | String/FixedString/IPv6 |
\x05 binary, \x02 старый двоичный подтип | String/FixedString |
\x05 binary, \x03 старый подтип uuid | UUID |
\x05 binary, \x04 подтип uuid | UUID |
\x07 ObjectId | String/FixedString |
\x08 boolean | Bool |
\x09 datetime | DateTime64 |
\x0A null value | NULL |
\x0D JavaScript code | String/FixedString |
\x0E symbol | String/FixedString |
\x10 int32 | Int32/UInt32/Decimal32/IPv4/Enum8/Enum16 |
\x12 int64 | Int64/UInt64/Decimal64/DateTime64 |
Другие типы BSON не поддерживаются. Кроме того, выполняется преобразование между различными целочисленными типами.
Например, можно вставить значение BSON типа int32 в ClickHouse как UInt8.
Большие целые и десятичные числа, такие как Int128/UInt128/Int256/UInt256/Decimal128/Decimal256, могут быть получены при разборе значения BSON типа Binary с двоичным подтипом \x00.
В этом случае формат проверяет, что размер двоичных данных равен размеру ожидаемого значения.
Этот формат работает некорректно на платформах с порядком байтов Big-Endian.
Пример использования
Вставка данных
Используем BSON-файл со следующими данными с именем football.bson:
Вставьте данные:
Чтение данных
Считывайте данные в формате BSONEachRow:
BSON — это двоичный формат, который не отображается в человекочитаемом виде в терминале. Используйте INTO OUTFILE для вывода файлов BSON.
Настройки формата
| Параметр | Описание | Значение по умолчанию |
|---|---|---|
output_format_bson_string_as_string | Использовать тип BSON String вместо Binary для строковых столбцов. | false |
input_format_bson_skip_fields_with_unsupported_types_in_schema_inference | Разрешить пропуск столбцов с неподдерживаемыми типами при определении схемы для формата BSONEachRow. | false |