Цикл, join и телефонный справочник. Кто победит: слон или кит?

У нас регулярно возникает задача сопоставления списка телефонных номеров наших любимых клиентов с бездушными данными, лежащими в ненавистной CRM. Про два таких случая я уже писал (Как извлечь деньги из логов очередей телефонной станции Астериск с помощью QlikView и Коллтрекинг и аллитерирующиеся продажи). CRM система крутится на боевом сервере и использовать его ресурсы для обсчета никак нельзя, а вдруг упадет? Поэтому задачи решаем с учетом ограничений наших ресурсов. Знакомый расклад?

Да, мы помним, что есть perl, регекспы, а первые компьютеры вообще имели 640КБ памяти. Но этот блог посвящен QlikView, поэтому постараемся показать подходы к решению этой задачи в QlikView.

Два об одном

Имеем две таблицы. В первой список телефонов клиентов с нумерацией вида:

[phone]

[phone]

74959371650

1	74959371650

74959371657

1	74959371657

6114

6114

Во второй, данные нашей CRM c идентификатором клиента и его номерами записанными в полном соответствии с фантазиями операторов, вида:

[Телефон]

[Телефон]

095-295-9051 строго после 9:00

1	095-295-9051 строго после 9:00

+7(812)2-12-85-06 спросить Борю

1	+7(812)2-12-85-06 спросить Борю

(495)9371650, (495)9371657

1	(495)9371650, (495)9371657

Коротко, стоит задача автоматически заджойнить эти таблички, чтобы затем произвести тонкий анализ телефонных звонков и сделать глубокомысленные выводы. Задача навести порядок в CRM тоже стоит, но не у нашего подразделения. Сроки, ресурсы и модели мотивации неизвестны. Риск допустим.

Я не знаю как идет сигнал

Медитировать над первой таблицей особого смысла нет. Телефонные номера всегда в закрытом плане (http://ru.wikipedia.org/wiki/Телефонный_номер) — нотации в которой номера всегда начинаются с 7, с заграницы нам не звонят — у нас нет там клиентов. Короткие (либо длинные) номера возникают в случае ошибки определителя номера, либо такой CallID отдает оператор связи, они не несут информации, их сравнительно мало и ими можно и нужно пренебречь.

Заготовка под загрузку будет выглядеть так:

<strong>LOAD</strong> * FROM [file] (txt) Where len(phone)=11; // 1(234)567-89-AB

1	<strong>LOAD</strong> * FROM [file] (txt) Where len(phone)=11; // 1(234)567-89-AB

Я не знаю принципа связи

Эта табличка заставляет задуматься, вспомнить добрым тихим словом разработчиков и вредненцев CRM. Можно написать регулярные выражения, но для QlikView они не родные и выполняться будут медленно. Поэтому воспользуемся магловской функцией KeepChar(Телефон,’0123456789,;’), которая оставит во второй таблице только цифры и пару разделителей. После её применения таблица будет иметь вид:

0952959051900

1	0952959051900

78122128506

1	78122128506

4959371650,4959371657

1	4959371650,4959371657

Слон, или цикл

Совсем простым INNER JOIN задача не решается — в специально подобранном примере не будет найдено ни одного совпадения (а они там точно есть).

Поэтому очевидно, что задачу можно решить сравнением двух строк, но для этого надо отрезать в первой таблице первую цифру (у нас там код страны) и добавить звездочки по краям.

Where KeepChar(Телефон,'0123456789,;') like '*' &amp; mid(phone,2)  &amp; '*';

1	Where KeepChar(Телефон,'0123456789,;') like '' & mid(phone,2) & '';

Да, мы помним о ложном положительном риске! В нашем примере номер 7-952-959-05-19 может быть неверно привязан к клиенту. И да, «я готов пойти на эту жертву!» (Лорд Фаркуад)

Но как сделать полный перебор всех возможных комбинаций? Воспользуемся циклом! Можно перебирать телефоны из первой таблицы, можно из второй. Здравый смысл подсказывает, чтобы перебор шёл по меньшей таблице. В нашем примере, наоборот! Получилось что-то типа

[code]

tab1: LOAD * INLINE [
phone
74959371650
74959371657
6114
0
]
Where len(phone)=11;

tab2: LOAD *,
KeepChar(Телефон,'0123456789,;') as Тел
;LOAD * INLINE [
Телефон
095-295-9051 строго после 9:00
+7(812)2-12-85-06 спросить Борю
"(495)9371650, (495)9371657"
];

let i=1;
do
let w='*' & mid(FieldValue('phone',i),2) & '*';
result: LOAD Телефон as Телеф 
Resident tab2
Where Тел like '$(w)'
;

let i=i+1;
loop while len(FieldValue('phone',i))>0
[/code]

[code]

tab1: LOAD * INLINE [

phone

74959371650

74959371657

6114

]

Where len(phone)=11;

tab2: LOAD *,

KeepChar(Телефон,'0123456789,;') as Тел

;LOAD * INLINE [

Телефон

095-295-9051 строго после 9:00

+7(812)2-12-85-06 спросить Борю

"(495)9371650, (495)9371657"

];

let i=1;

let w='*' & mid(FieldValue('phone',i),2) & '*';

result: LOAD Телефон as Телеф

Resident tab2

Where Тел like '$(w)'

;

let i=i+1;

loop while len(FieldValue('phone',i))>0

[/code]

В результате работы этого скрипта мы получили единственную запись в таблице result

[Телеф]

(495)9371650, (495)9371657

[Телеф]

(495)9371650, (495)9371657

И это действительно правильный ответ!

Преимущество такого скрипта в том, что он не требует много памяти и стабилен. Далее следуют недостатки: на тестовых объемах таблиц (30000 записей в каждой) он выполняется медленно. Действительно, если tmp заполняется 0.1 секунды, то цикл отработает за 3000 секунд, а это 50 минут. Несмотря на то, что QlikView выполняет запросы на всех ядрах процессора (LOAD * WHERE), обрамляющий скрипт (DO … WHILE) выполняется на одном ядре.

В 2015 году удалось поработать за компьютером с 3ГБ памяти под XP. Как вы понимаете, приложению выделялось не более 2ГБ, поэтому остро стоял вопрос экономии памяти. Данные разбивались на мелкие порции только чтобы впихнуть невпихуемое.

Кит или join

Как бы избавиться от цикла, и заставить работать все ядра процессора? Цикл решает задачу перебором. В том, чтобы составить все возможные комбинации нам поможет JOIN.

Грубо говоря, мы сначала джойним вторую таблицу к первой, перемножая их и получая монстрообразную таблицу, а уже потом извлекаем действительно связанные данные.

[code]

tab1: LOAD *,
'*' & mid(phone,2) & '*' as phon
; LOAD * INLINE [
phone
74959371650
74959371657
6114
0
]
Where len(phone)=11;

tab2: LOAD *,
KeepChar(Телефон,'0123456789,;') as Тел
; LOAD * INLINE [
Телефон
095-295-9051 строго после 9:00
+7(812)2-12-85-06 спросить Борю
"(495)9371650, (495)9371657"
];

tmp: LOAD Тел 
Resident tab2
; LEFT JOIN ('tmp') LOAD * Resident tab1;
DROP TABLEs tab1, tab2;

result: NOCONCATENATE LOAD * Resident tmp
Where Тел like phon;
DROP TABLE tmp;

[/code]

[code]

tab1: LOAD *,

'*' & mid(phone,2) & '*' as phon

; LOAD * INLINE [

phone

74959371650

74959371657

6114

]

Where len(phone)=11;

tab2: LOAD *,

KeepChar(Телефон,'0123456789,;') as Тел

; LOAD * INLINE [

Телефон

095-295-9051 строго после 9:00

+7(812)2-12-85-06 спросить Борю

"(495)9371650, (495)9371657"

];

tmp: LOAD Тел

Resident tab2

; LEFT JOIN ('tmp') LOAD * Resident tab1;

DROP TABLEs tab1, tab2;

result: NOCONCATENATE LOAD * Resident tmp

Where Тел like phon;

DROP TABLE tmp;

[/code]

И опять получаем правильный ответ:

[Телеф]

(495)9371650, (495)9371657

[Телеф]

(495)9371650, (495)9371657

Этот скрипт является настоящим пожирателем памяти. На тесте (30000 записей в каждой из таблиц) приложение заняло 9ГБ памяти, зато исполнялось около 5 минут. К недостаткам скрипта можно отнести его нестабильность. Если в ваше отсутствие, в CRM подгрузят холодную клиентскую базу, памяти может просто не хватить и скрипт рухнет.

Какая рыба в океане плавает быстрее всех

Если подумать, то в обоих скриптах QlikView занимается повторением пройденного, каждый раз, заново привязывая телефоны к клиентам. Если сделать промежуточную таблицу и хранить там уже распознанных клиентов, то объем используемых ресурсов (времени либо памяти) резко уменьшится. В этом нам поможет NOT Exist():

PhoneChkd: LOAD // Формируем список уже распознанных телефонов
mid(numa,2) as numa_chkd 
FROM [phone*.csv] (txt, utf8, embedded labels, delimiter is ',', msq)
Where len(numa)>0
;

Дополняем условие (справедливо для обоих скриптов)

Where len(phone)=11

следующим:

and not EXISTS(numa_chkd,right(numa,10))

Не забываем удалить табличку:

DROP Table PhoneChkd;

PhoneChkd: LOAD // Формируем список уже распознанных телефонов

mid(numa,2) as numa_chkd

FROM [phone*.csv] (txt, utf8, embedded labels, delimiter is ',', msq)

Where len(numa)>0

;

Дополняем условие (справедливо для обоих скриптов)

Where len(phone)=11

следующим:

and not EXISTS(numa_chkd,right(numa,10))

Не забываем удалить табличку:

DROP Table PhoneChkd;

Если результаты того, что удалось распознать в очередной итерации сохранять, то объем работы еще немного сократиться. Мы будем анализировать только нераспознанных клиентов, заведенных в CRM:

if NoOfRows('result')=0 then
       rem нечего записывать;
else
       let fn='phone' & date(Today(2),'YYYY-MM-DD') & '.csv';
             STORE result into [$(fn)] (txt); // utf-8
end if

if NoOfRows('result')=0 then

rem нечего записывать;

else

let fn='phone' & date(Today(2),'YYYY-MM-DD') & '.csv';

STORE result into [$(fn)] (txt); // utf-8

end if

Далее можно распознавать не все телефоны, а только звонки, совершенные за последние несколько месяцев… Все зависит от реальных задач стоящих перед вами.

Спасибо за рыбу!

История напоминает: победила Англия. Вот так и наш кит, при всех своих недостатках, ушел в продакшн.

Здравый смысл настаивает: в одних случаях важен код, который втискивается в жесткие рамки памяти, в других важна скорость, в третьих простота кода — залог беспроблемной поддержки.

Опыт упорствует: лучше иметь корявый код и решить реальную бизнес задачу, чем иметь офигительную идею, идеальный или совершенный код, через неделю после дедлайна. Не бойтесь писать код под QlikView. Реальные задачи имеют много способов решения. Не существует единственно правильного. Это жизнь, Карл!

Цикл, join и телефонный справочник. Кто победит: слон или кит?

Два об одном

Я не знаю как идет сигнал

Я не знаю принципа связи

Слон, или цикл

Кит или join

Какая рыба в океане плавает быстрее всех

Спасибо за рыбу!

Об авторе

B3

Ответить Отменить ответ

Личный кабинет

О ресурсе:

Свежие записи

Свежие комментарии

ТОП-5 авторов

Цикл, join и телефонный справочник. Кто победит: слон или кит?

Два об одном

Я не знаю как идет сигнал

Я не знаю принципа связи

Слон, или цикл

Кит или join

Какая рыба в океане плавает быстрее всех

Спасибо за рыбу!

Об авторе

B3

Похожие публикации

qRUG Camp 2018: подробности и регистрация

Альманах визуализации: Способы возможностей выбора (Выпуск 3/3)

Pixel-Perfect интерфейс: работа с сеткой в QlikView

DISTINCT or no DISTINCT — вот в чём вопрос!

Ответить Отменить ответ

Личный кабинет

О ресурсе:

Свежие записи

Свежие комментарии

ТОП-5 авторов