Не так давно вышли новые релизы Qlik Sense и QlikView – November 2017. Важной их особенностью является добавление Advanced Analytics Integration для QlikView. Таким образом, теперь продвинутую аналитику я буду рассматривать не только применительно к Qlik Sense, но и к QlikView. Сегодня будут важные мысли на тему – расскажу о трех признаках продвинутой аналитики, а упражняться с R будем в следующий раз. Итак, приступим.
ADVANCED ANALYTICS – что это такое?
Сперва давайте разберемся, что же такое продвинутая аналитика? На самом деле, даже само слово «аналитика» на данный момент так часто используется, что просто перестала иметь какую-то смысловую нагрузку. За какую бы задачу мы не взялись в любой области – везде есть анализ (бизнес-аналитики, маркетологи-аналитики и т.д.). В одной статье как-то прочел интересное утверждение – «Нарисовал график или подсчитал статистику – получай аналитику…», случай довольно анекдотичный))). Если лень читать статью, тезисно укажу, что же превращает обычную аналитику в продвинутую:
- Нетривиальная логика обработки данных
- Обоснованное использование сложных алгоритмов
- Обработка больших объемов данных
Давайте теперь рассмотрим каждый из этих пунктов применительно к Qlik =)
НЕТРИВИАЛЬНАЯ ЛОГИКА ОБРАБОТКИ ДАННЫХ
Тут я подразумеваю решение каких-либо задач, связанных с обработкой данных оригинальными, небанальными и нестандартными способами. Приведу простой пример: в одной из своих статей ранее я описывал механизм RegEx (регулярные выражения) и его применение в очистке данных. Так вот, как только мы, для очистки поля например, переходим от многократного использования оператора SubField() к RegEx, то у нас сразу появляется нестандартная логика обработки данных.
ОБОСНОВАННОЕ ИСПОЛЬЗОВАНИЕ СЛОЖНЫХ АЛГОРИТМОВ
В своих статьях я уже отмечал: если задача может решаться простым методом, то нет смысла использовать сложную математику. Сложные алгоритмы/методы – для сложных и нетривиальных задач.
На мой взгляд, сегодня в бизнесе сложилась довольно парадоксальная ситуация вокруг анализа данных. У всех на слуху «Big Data» и «Data Mining», это тренд, это модно =), но мало кто понимает, что скрывается за этими наименованиями. Порой возникает ситуация, когда, имея хоть какой-то набор данных, в компании сразу начинают говорить про Big Data. На самом деле Big Data/Data Mining – это не только нейронные сети и сложные математические модели, а еще и очень большой блок работ по подготовке данных. Вот что из себя представляет, например, алгоритм прогнозирования ARIMA? По факту – это одна строчка кода или один обработчик (в зависимости от используемого инструмента обработки), на вход которой подается временной ряд. И здесь главное не само по себе использование ARIMA, а подготовка этого временного ряда – необходимо понять, что и как прогнозировать, как избавится от аномальных значений и пропусков и т.д. То есть до Data Mining надо еще добраться =)
ОБРАБОТКА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ
Тут все более-менее понятно. Проблема заключается в том, что наборы данных при обработке не помещаются в память, банально не хватает ресурсов. Решать проблему можно разными способами: разбивать информацию на части, распределять вычисления и т.д.
А ЧТО ЖЕ QLIK?
До недавнего времени в Qlik лично для меня был один существенный недостаток: было недостаточно математики. Конечно, владея инструментом R и научившись запускать командную строку прямо из Qlik, можно было подружить эти два первоклассных инструмента! Но при этом не покидало ощущение, что я делаю какую-то портянку, что это должно работать как-то не так, без специальных магических коннекторов… И вот релиз November 2017 дает теперь возможность максимально удобно интегрировать эти два инструмента)))
ЧТО ДАЛЬШЕ?
Теперь, имея инструмент, можно приступать к работе. Но я бы хотел дать некоторые рекомендации по разработке:
- Там, где можно использовать Qlik, используйте Qlik. Использовать R/Python ради R/Python просто бессмысленно
- Подготовка данных для Advanced Analytics – это самый трудоемкий и долгий процесс, но здесь Qlik, как всегда, — наш большой помощник, он обеспечивает всем необходимым для подготовки данных для дальнейшего анализа и прогнозирования
- Если имеете дело с большим проектом и идет многоступенчатая последовательная обработка данных, всю работу стоит разбивать на этапы/конкретные задачи. Да, будьте Agile, а Qlik поможет =)
Это было вводное вступление, ну а в следующей статье я расскажу, какие практические возможности есть с интеграцией Qlik и R, какой скрипт R можно «спрятать» в Qlik.
До новых встреч! =)
«расскажу, какие практические возможности есть с интеграцией Qlik и R, какой скрипт R можно «спрятать» в Qlik.»
Заинтриговали. Жду с нетерпением