Оператор CHECK TABLE
Запрос CHECK TABLE в ClickHouse используется для проверки целостности данных в конкретной таблице или её партициях. Он контролирует целостность данных путём проверки контрольных сумм и других внутренних структур данных.
В частности, он сравнивает фактические размеры файлов с ожидаемыми значениями, которые хранятся на сервере. Если размеры файлов не совпадают с сохранёнными значениями, это означает, что данные повреждены. Это может быть вызвано, например, сбоем системы во время выполнения запроса.
Запрос CHECK TABLE может читать все данные в таблице и занимать значительные ресурсы, что делает его ресурсоёмким.
Оцените потенциальное влияние на производительность и использование ресурсов перед выполнением этого запроса.
Этот запрос не улучшит производительность системы, и вам не следует выполнять его, если вы не уверены в своих действиях.
Синтаксис
Основной синтаксис запроса выглядит следующим образом:
table_name: Указывает имя таблицы, которую вы хотите проверить.partition_expression: (Необязательно) Если вы хотите проверить определённый раздел таблицы, используйте это выражение, чтобы указать раздел.part_name: (Необязательно) Если вы хотите проверить конкретную часть данных в таблице, добавьте строковый литерал, чтобы указать её имя.FORMAT format: (Необязательно) Позволяет указать формат вывода результата.SETTINGS: (Необязательно) Позволяет задать дополнительные настройки.check_query_single_value_result: (Необязательно) Эта настройка позволяет переключаться между детализированным результатом (0) и суммарным результатом (1).- Можно применить и другие настройки. Если для результатов не требуется детерминированный порядок, вы можете установить max_threads больше единицы, чтобы ускорить запрос.
Ответ на запрос зависит от значения настройки check_query_single_value_result.
При значении check_query_single_value_result = 1 возвращается только столбец result с одной строкой. Значение в этой строке равно 1, если проверка целостности пройдена, и 0, если данные повреждены.
При check_query_single_value_result = 0 запрос возвращает следующие столбцы:
part_path: Указывает путь к части данных или имя файла.is_passed: Возвращает 1, если проверка для этой части прошла успешно, и 0 в противном случае.message: Любые дополнительные сообщения, связанные с проверкой, такие как сообщения об ошибках или успешном выполнении.
Запрос CHECK TABLE поддерживает следующие движки таблиц:
Выполнение запроса для таблиц с другими движками таблиц вызывает исключение NOT_IMPLEMENTED.
Движки из семейства *Log не обеспечивают автоматическое восстановление данных при сбое. Используйте запрос CHECK TABLE, чтобы своевременно отслеживать потерю данных.
Примеры
По умолчанию запрос CHECK TABLE показывает общий результат проверки таблицы:
Если вы хотите видеть статус проверки для каждой отдельной части данных, вы можете использовать настройку check_query_single_value_result.
Также, чтобы проверить конкретный раздел таблицы, вы можете использовать ключевое слово PARTITION.
Результат:
Аналогично, можно проверить отдельную часть таблицы с помощью ключевого слова PART.
Вывод:
Обратите внимание: если часть не существует, запрос завершится ошибкой:
Получение результата 'Corrupted'
Отказ от ответственности: описанная здесь процедура, включая ручное изменение или удаление файлов непосредственно в каталоге данных, предназначена только для экспериментальных сред и сред разработки. Не пытайтесь выполнять её на боевом сервере, так как это может привести к потере данных или другим непредвиденным последствиям.
Удалите существующий файл контрольной суммы:
Если файл checksums.txt отсутствует, его можно восстановить. Он будет пересчитан и перезаписан во время выполнения команды CHECK TABLE для конкретного раздела, и статус по‑прежнему будет отображаться как 'is_passed = 1'.
Вы можете проверить все существующие таблицы (Replicated)MergeTree одновременно с помощью запроса CHECK ALL TABLES.
Если данные повреждены
Если таблица повреждена, вы можете скопировать неповреждённые данные в другую таблицу. Для этого:
- Создайте новую таблицу с такой же структурой, как у повреждённой таблицы. Для этого выполните запрос
CREATE TABLE <new_table_name> AS <damaged_table_name>. - Установите значение
max_threadsравным 1, чтобы следующий запрос выполнялся в одном потоке. Для этого выполните запросSET max_threads = 1. - Выполните запрос
INSERT INTO <new_table_name> SELECT * FROM <damaged_table_name>. Этот запрос копирует неповреждённые данные из повреждённой таблицы в другую таблицу. Будут скопированы только данные до повреждённой части. - Перезапустите
clickhouse-client, чтобы сбросить значениеmax_threads.