Apache Druid

Apache Druid — колоночная открытая СУБД, написанная на Java. Druid разработан для обработки большого количества данных и предоставления запросов с низкой задержкой данных, применяется в приложениях бизнес-аналитики OLAP для анализа больших объемов данных в реальном времени и исторических данных такими компаниями как Alibaba, Airbnb, Cisco, eBay, Lyft, Netflix, PayPal, Pinterest, Reddit, Twitter, Walmart, Yahoo и другие. Компания Druid была основана в 2011 году для разработки аналитического продукта Metamarkets. Проект был выпущен с открытым исходным кодом под лицензией GPL в октябре 2012 года и перешел на лицензию Apache в феврале 2015 года

Архитектура системы

Друид хранит данные в сегментах. Каждый сегмент представляет собой отдельный файл, обычно содержащий до нескольких миллионов строк данных. Каждая таблица Druid может иметь от одного сегмента до миллионов сегментов, распределенных по кластеру.

Внутри сегментов хранение данных осуществляется по столбцам. Запросы загружают только определенные столбцы, необходимые для каждого запроса. Хранилище каждого столбца оптимизировано по типу данных, что дополнительно повышает производительность сканирования и агрегирования. Строковые столбцы хранятся с использованием сжатого словарного кодирования, а числовые столбцы хранятся с использованием сжатых необработанных значений.

Формат хранения

Druid обычно используется для сценариев использования BI. Организации развернули Druid для ускорения запросов и приложений. В отличие от движков SQL-on-Hadoop, таких как Presto или Hive, Druid предназначен для высокой степени параллелизма и выполнения запросов менее чем за секунду, обеспечивая интерактивный просмотр данных через пользовательский интерфейс. В целом это делает Druid более подходящим для действительно интерактивной визуальной аналитики.

Apache Druid

Архитектура системы

Формат хранения

Заказать отчет