Реальный тест производительности Exasol vs SAP HANA vs Greenplum vs ClickHouse vs Impala vs MemSQL

При выборе аналитической базы данных, конечно, нужно тестировать на своих данных и запросах, которые будут задавать ваши пользователи. Но для создания шорт-листа СУБД для тестирования всем хочется посмотреть реальные данные чужих тестов. Ребята из Управления хранилищ данных банка «Тинькофф» поделились на Хабре своими результатами тестирования in-memory (и не только) баз данных и наблюдениями. Сегодня приведем краткую выжимку их тестов производительности Exasol, Greenplum, ClickHouse, SAP HANA, MemSQL и Cloudera Impala. Требования к СУБД и кейс использования Текущее хранилище на основе БД Greenplum не очень устраивало по скорости выполнения запросов. Тестирование СУБД проводили для выбора front-end базы данных хранилища для выборочного набора данных (до 4 Тб, с возможным увеличением). Целевая БД должна была обладать следующей функциональностью: поколоночное хранение данных, горизонтальная масштабируемость, возможность выполнять локальные join-ы и использовать «правильный» ключ распределения в таблицах (ad-hoc запросы пользователей в 90% случаев – это Select c join-ами (от 1 до 10) по условиям равенства и, иногда, условиям вхождения дат в интервал), эффективная работа с кэшем и большим объёмом доступной памяти, Хорошая интеграция с BI-системой SAP Business Objects (она будет обращаться к БД, помимо ad-hoc запросов пользователей) Надежный, желательно, инкрементальный, импорт данных из Greenplum (это текущее основное хранилище данных Тинькофф и загрузка данных в БД будет из него) Оконные функции, Резервирование (способность хранить несколько копий данных на разных нодах), Простота дальнейшего расширения кластера, Параллельная загрузка данных. Инфраструктура для тестирования На каждую тестируемую базу данных было выделено...

Read More

QVD файлы — что внутри: часть 2

QVD файлы — что внутри: часть 2 Сегодня у нас продолжение серии постов о QVD файлах от Михаила Королева из АльфаСтрахование. В первой статье о структуре QVD файла Михаил описал общую структуру и достаточно подробно остановился на метаданных. В этой статье нас ждет описание формата хранения информации о колонках, а также опыт автора по трактовке этих данных. Итак (вспоминаем) QVD файл соответствует реляционной таблице, которая, как известно состоит из строк. Каждая строка таблицы в свою очередь состоит из колонок (или полей), причем строки имеют одинаковую структуру, которая может быть описана, например, SQL оператором (create table). В QVD файле таблица хранится в виде двух косвенно связанных частей: Таблицы символов (термин мой) содержат уникальные значения каждой колонки исходной таблицы. Именно о них пойдет речь ниже. Таблица строк содержит строки исходной таблицы, каждая строка хранит индексы значений колонки (поля) строки в соответствующей таблице символов. О таблице строк более подробно я расскажу в третьей части этой серии. На примере нашей таблички (помните — из первой части) SET NULLINTERPRET =<sym>; tab1: LOAD * INLINE [ ID, NAME 123.12,»Pete» 124,12/31/2018 -2,»Vasya» 1,»John» <sym>,»None» ]; В этой табличке: 5 строк поле “ID” имеет 4 уникальных значения (NULL не считается значением, более подробно о нем — в третьей части) поле “NAME” имеет 5 уникальных значений первая строка в таблице строк будет содержать индексы 0 и 0, соответствующие значениям 123.12 и “Pete” соответственно Специальные случаи Как правило, для всех полей таблицы в QVD файле...

Read More

QVD файлы — что внутри: часть 1

QVD файлы — что внутри: часть 1 Сегодня у нас пост о QVD файлах от Михаила Королева из АльфаСтрахование. В этой части Михаил рассмотрит структуру QVD и подробно расскажет о текстовой части QVD файлов, метаданных. QlikView и его младший брат Qlik Sense — замечательные BI инструменты, достаточно популярные у нас в стране и «за рубежом». Очень часто эти системы сохраняют «промежуточные» результаты своей работы — данные, которые визуализируют их «дашборды» — в так называемые «QVD файлы». Часто QVD файлы используются в качестве основного хранилища в многоэтапных ETL процессах, построенных на базе Qlik. И тогда у некоторых (у меня, например, — я занимаюсь в компании вопросами инженерии данных) возникает вопрос — можно ли и как воспользоваться этими данными без QlikView/Qlik Sense? Или другой — а что там и правильно ли «оно» посчиталось? QVD — это формат файла, оптимизированный для работы QlikView/Qlik Sense (чтение из запись информации этими приложениями в файлы такого формата происходит существенно быстрее, чем в файлы любого другого формата). Структура этого файла недокументирована и покрыта «мраком проприетарности», практически не существует приложений, которые способны работать такими файлами (читать и тем более писать). В этой серии статей я поделюсь своим опытом и полученными практическими познаниями: я знаю, как устроен QVD, умею напрямую и быстро его читать и в него писать. Кому будет интересна данная информация: в первую очередь тем, кто работает с QlikView/Qlik Sense, а также тем, кто (как и...

Read More

Qlik Sense + SurveyMonkey: Настройка REST API подключения

Всем привет! Сегодня публикуем статью от разработчика Андрея, в которой он рассматривает, как пошагово настроить REST API подключение к SurveyMokey в Qlik Sense. SurveyMonkey — популярный сервис для проведения опросов. На одном из проектов нам нужно было извлечь и проанализировать в Qlik Sense 5 миллионов строк опросов. Если у вас тоже есть такой источник данных, я сэкономлю вам день на то, чтобы разобраться с особенностями настройки REST подключения к API SurveyMonkey. SurveyMonkey Коннектор vs. REST API SurveyMonkey Qlik разработали специальный SurveyMonkey коннектор, который всю настройку REST-подключения делает за вас. Вот ссылка на более подробное описание самого коннектора: https://www.surveymonkeysv.surveymonkey.com/apps/7PF6v7iygyF7gbRk_2BCEZ7A_3D_3D/details/ Но там есть...

Read More

Релиз Qlik February 2019: что нового?

Qlik Sense совершенствуется с каждым релизом, и уже некоторые давние клиенты QlikView начинают переводить некоторые приложения на Qlik Sense. В февральском релизе Qlik Sense много изменений по визуализации – появился новый пакет одобренных расширений «Visualisation bundle», интерфейс системы стал, на мой взгляд, более привлекательным – теперь переключаться между данными, аналитикой и сторителлингом можно без лишних вкладок, появились подсказки в редакторе выражений, стал доступен Qlik Associative Big Data Index. А теперь подробнее расскажу обо всех новинках релиза. Пакет расширений: Visualisation bundle Важным обновлением Qlik Sense за февраль 2019 года является набор дополнительных «экзотических» визуализаций. Qlik продолжает свою программу Qlik TED (Trusted...

Read More

О ресурсе:

Меня зовут Андрей Терехов. Я работаю в ИТ-бизнесе уже более 20 лет, из них 8 лет – с QlikView и Qlik Sense.

Далее >>

Перейти к верхней панели