Реальный тест производительности Exasol vs SAP HANA vs Greenplum vs ClickHouse vs Impala vs MemSQL
При выборе аналитической базы данных, конечно, нужно тестировать на своих данных и запросах, которые будут задавать ваши пользователи. Но для создания шорт-листа СУБД для тестирования всем хочется посмотреть реальные данные чужих тестов. Ребята из Управления хранилищ данных банка «Тинькофф» поделились на Хабре своими результатами тестирования in-memory (и не только) баз данных и наблюдениями. Сегодня приведем краткую выжимку их тестов производительности Exasol, Greenplum, ClickHouse, SAP HANA, MemSQL и Cloudera Impala. Требования к СУБД и кейс использования Текущее хранилище на основе БД Greenplum не очень устраивало по скорости выполнения запросов. Тестирование СУБД проводили для выбора front-end базы данных хранилища для выборочного набора данных (до 4 Тб, с возможным увеличением). Целевая БД должна была обладать следующей функциональностью: поколоночное хранение данных, горизонтальная масштабируемость, возможность выполнять локальные join-ы и использовать «правильный» ключ распределения в таблицах (ad-hoc запросы пользователей в 90% случаев – это Select c join-ами (от 1 до 10) по условиям равенства и, иногда, условиям вхождения дат в интервал), эффективная работа с кэшем и большим объёмом доступной памяти, Хорошая интеграция с BI-системой SAP Business Objects (она будет обращаться к БД, помимо ad-hoc запросов пользователей) Надежный, желательно, инкрементальный, импорт данных из Greenplum (это текущее основное хранилище данных Тинькофф и загрузка данных в БД будет из него) Оконные функции, Резервирование (способность хранить несколько копий данных на разных нодах), Простота дальнейшего расширения кластера, Параллельная загрузка данных. Инфраструктура для тестирования На каждую тестируемую базу данных было выделено...
Read More
Свежие комментарии