Не так давно вышли новые релизы Qlik Sense и QlikView – November 2017. Важной их особенностью является добавление Advanced Analytics Integration для QlikView. Таким образом, теперь продвинутую аналитику я буду рассматривать не только применительно к Qlik Sense, но и к QlikView. Сегодня будут важные мысли на тему – расскажу о трех признаках продвинутой аналитики, а упражняться с R будем в следующий раз. Итак, приступим.

ADVANCED ANALYTICS – что это такое?

Сперва давайте разберемся, что же такое продвинутая аналитика? На самом деле, даже само слово «аналитика» на данный момент так часто используется, что просто перестала иметь какую-то смысловую нагрузку. За какую бы задачу мы не взялись в любой области – везде есть анализ (бизнес-аналитики, маркетологи-аналитики и т.д.). В одной статье как-то прочел интересное утверждение – «Нарисовал график или подсчитал статистику – получай аналитику…», случай довольно анекдотичный))). Если лень читать статью, тезисно укажу, что же превращает обычную аналитику в продвинутую:

  • Нетривиальная логика обработки данных
  • Обоснованное использование сложных алгоритмов
  • Обработка больших объемов данных

Давайте теперь рассмотрим каждый из этих пунктов применительно к Qlik =)

НЕТРИВИАЛЬНАЯ ЛОГИКА ОБРАБОТКИ ДАННЫХ

Тут я подразумеваю решение каких-либо задач, связанных с обработкой данных оригинальными, небанальными и нестандартными способами. Приведу простой пример: в одной из своих статей ранее я описывал механизм RegEx (регулярные выражения) и его применение в очистке данных. Так вот, как только мы, для очистки поля например, переходим от многократного использования оператора SubField() к RegEx, то у нас сразу появляется нестандартная логика обработки данных.

ОБОСНОВАННОЕ ИСПОЛЬЗОВАНИЕ СЛОЖНЫХ АЛГОРИТМОВ

В своих статьях я уже отмечал: если задача может решаться простым методом, то нет смысла использовать сложную математику. Сложные алгоритмы/методы – для сложных и нетривиальных задач.

На мой взгляд, сегодня в бизнесе сложилась довольно парадоксальная ситуация вокруг анализа данных. У всех на слуху «Big Data» и «Data Mining», это тренд, это модно =), но мало кто понимает, что скрывается за этими наименованиями. Порой возникает ситуация, когда, имея хоть какой-то набор данных, в компании сразу начинают говорить про Big Data. На самом деле Big Data/Data Mining – это не только нейронные сети и сложные математические модели, а еще и очень большой блок работ по подготовке данных. Вот что из себя представляет, например, алгоритм прогнозирования ARIMA? По факту – это одна строчка кода или один обработчик (в зависимости от используемого инструмента обработки), на вход которой подается временной ряд. И здесь главное не само по себе использование ARIMA, а подготовка этого временного ряда – необходимо понять, что и как прогнозировать, как избавится от аномальных значений и пропусков и т.д. То есть до Data Mining надо еще добраться =)

ОБРАБОТКА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ

Тут все более-менее понятно. Проблема заключается в том, что наборы данных при обработке не помещаются в память, банально не хватает ресурсов. Решать проблему можно разными способами: разбивать информацию на части, распределять вычисления и т.д.

А ЧТО ЖЕ QLIK?

До недавнего времени в Qlik лично для меня был один существенный недостаток: было недостаточно математики. Конечно, владея инструментом R и научившись запускать командную строку прямо из Qlik, можно было подружить эти два первоклассных инструмента! Но при этом не покидало ощущение, что я делаю какую-то портянку, что это должно работать как-то не так, без специальных магических коннекторов… И вот релиз November 2017 дает теперь возможность максимально удобно интегрировать эти два инструмента)))

ЧТО ДАЛЬШЕ?

Теперь, имея инструмент, можно приступать к работе. Но я бы хотел дать некоторые рекомендации по разработке:

  • Там, где можно использовать Qlik, используйте Qlik. Использовать R/Python ради R/Python просто бессмысленно
  • Подготовка данных для Advanced Analytics – это самый трудоемкий и долгий процесс, но здесь Qlik, как всегда, — наш большой помощник, он обеспечивает всем необходимым для подготовки данных для дальнейшего анализа и прогнозирования
  • Если имеете дело с большим проектом и идет многоступенчатая последовательная обработка данных, всю работу стоит разбивать на этапы/конкретные задачи. Да, будьте Agile, а Qlik поможет =)

Это было вводное вступление, ну а в следующей статье я расскажу, какие практические возможности есть с интеграцией Qlik и R, какой скрипт R можно «спрятать» в Qlik.

До новых встреч! =)