Широкие и узкие данные: Различия, преимущества и подходы к анализу

В широких данных каждая отдельная сущность занимает собственную строку, а каждое из их описательных свойств сущности - столбец. Сущности в первом столбце как правило уникальны, и вся таблица посвящена описанию их свойств и условий, при которых эти свойства были зафиксированы.

Широкие данные удобны для людей, поскольку этот формат легко визуально воспринимать, читать и интерпретировать. Вся информация об одном объекте доступна с первого взгляда. Это удобно для всякого рода описательной статистики и отчетности.

Их хорошо применять при сборе различных измерений или характеристик объекта, когда разные переменные или новые наблюдения записываются в новых столбцах, что позволяет проводить параллельное сравнение. Прекрасный пример в нашей среде — это лабораторный анализ проб. Идентификатор в первом столбце, еще какие-то параметры пробы в начальных столбцах и бесконечные измерения в последующих.

Хотя широкие данные удобны человеку, они на удивление также подходят для задач машинного обучения, где каждое наблюдение занимает одну строку, а функции, используемые для прогнозирования или классификации, организованы в отдельные столбцы.

В отличие от широких данных, узкие или длинные данные допускают использование нескольких строк для каждого объекта и записывают новые атрибуты или наблюдения в качестве новой строки в наборе данных. Эта структура удобна для машин, поскольку в ней легче выполнять функции, такие как фильтрация, агрегирование и преобразование данных.

Добавление новых данных также намного проще при использовании длинного формата, поскольку нужно только добавлять новые строки, а не создавать дополнительные столбцы. Это также позволяет избежать проблемы наличия нулевых значений в столбцах (то, что мы называем «шахматная доска»), когда для сущности нет данных, поскольку можно просто не записывать строки, если данных нет. Визуально это как раз неинформативно. Шахматная доска сразу дает понять, что какие-то свойства или измерения отсутствуют, а отсутствие строк невооруженным глазом в таблице не заметишь так же легко, как частично не заполненные столбцы.
Это практичный формат данных для программ визуализации и бизнес-аналитики, и оптимальный формат для записи таких временных рядов, как данные реального времени в бурении или добыче, и любые повторяющиеся измерения.

Перетаскивая заказчиков из реляционного в нереляционный формат данных, мы производим много манипуляций с данными и сознанием. Одна из них – превращение узких данных (так как они, как правило, хранятся в базах данных и нормальных формах) в широкие!
Определение "Нормальной формы"
Иными словами, мы их денормализуем.
Определение "Денормализации"

В Memoza данные широкие, потому что в большей степени предназначены для визуального анализа. Но часто мы прибегаем к их сужению путем разбиения данных на несколько разных классов. Для нас это фактически сводится к отведению новой таблицы под каждое уникальное значение какого-то атрибута.

Условно говоря, может быть таблица «моделей», объединяющая геологические и гидродинамические модели, а может быть две таблицы для геологических и гидродинамических моделей соответственно! Меньше незаполненных клеток со специальными атрибутами гидродинамической модели, которых не может быть у геологической, но чтобы дать ответ, на вопрос: а какие у нас модели и какая была обновлена последней, придется проанализировать или опросить две таблицы вместо одной.

Так что в нашем мире вопрос делать данные шире или нет уже решает исключительно структура популярного запроса.

А так, IMHO, широкие данные рулят!