Исторические данные наблюдений погоды на Тайване
Этот набор данных содержит исторические измерения метеорологических наблюдений за последние 128 лет. Каждая строка представляет собой измерение для пары «момент времени — метеостанция».
Источник этого набора данных доступен здесь, а список номеров метеостанций можно найти здесь.
Источниками метеорологических наборов данных являются метеостанции, созданные Центральной метеорологической администрацией (код станции начинается с C0, C1 и 4), а также сельскохозяйственные метеостанции, относящиеся к Совету по вопросам сельского хозяйства (код станции отличается от перечисленных выше):
- StationId
- MeasuredDate — время наблюдения
- StnPres — атмосферное давление на станции
- SeaPres — давление на уровне моря
- Td — температура точки росы
- RH — относительная влажность
- Другие элементы, где они доступны
Загрузка данных
- Предварительно обработанная версия данных для ClickHouse, которые были очищены, переработаны и обогащены. Этот набор данных охватывает период с 1896 по 2023 год.
- Скачать исходные «сырые» данные и преобразовать их в формат, требуемый ClickHouse. Пользователи, которые хотят добавить собственные столбцы, могут изучить или доработать свои подходы.
Предобработанные данные
Набор данных был преобразован из формата «одно измерение на строку» в формат «одна строка по идентификатору метеостанции и дате измерения», т.е.
Просто выполнить запрос и убедиться, что результирующая таблица менее разрежённая и что некоторые элементы имеют значение NULL, поскольку на этой метеостанции их невозможно измерить.
Этот набор данных доступен по следующему адресу в Google Cloud Storage. Либо скачайте набор данных на локальную файловую систему (и вставьте его с помощью клиента ClickHouse), либо вставьте данные напрямую в ClickHouse (см. Вставка из URL).
Чтобы скачать:
Исходные сырые данные
Далее приведены сведения о шагах по загрузке исходных необработанных данных, которые затем можно преобразовать и конвертировать по своему усмотрению.
Загрузка
Чтобы скачать исходные сырые данные:
Получение данных метеостанций Тайваня
Создание схемы таблицы
Создайте таблицу MergeTree в ClickHouse (через клиент ClickHouse).
Вставка данных в ClickHouse
Вставка данных из локального файла
Данные можно вставить из локального файла следующим образом (в клиенте ClickHouse):
где /path/to — это конкретный путь пользователя к локальному файлу на диске.
Пример ответа после вставки данных в ClickHouse выглядит следующим образом:
Вставка из URL
Чтобы узнать, как ускорить этот процесс, ознакомьтесь с нашей публикацией в блоге о настройке загрузки больших объёмов данных.
Проверка числа строк и объёма данных
- Посмотрим, сколько строк было вставлено:
- Давайте посмотрим, сколько места на диске используется для этой таблицы:
Примеры запросов
Q1: Получите максимальное значение температуры точки росы для каждой метеостанции за заданный год
Q2: Выборка сырых данных за заданный интервал времени, по полям и метеостанции
Благодарности
Мы хотели бы отметить работу Центрального метеорологического управления и сети агрометеорологических наблюдательных станций Совета по сельскому хозяйству по подготовке, очистке и распространению этого набора данных. Мы высоко ценим их усилия.
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. Application-oriented deep learning model for early warning of rice blast in Taiwan. Ecological Informatics 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [13/12/2022]