Сегментация. Вандалим кластеры

Сейчас не будем про все дебри сегментации. Только про файнтюнинг.

Обсуждение результатов и с клиентами, и с коллегами выводит на мысль, что наши доморощенные подходы часто в диковинку. Ну тогда поделимся. Нам не жалко. А может у кого-то и конструктивное развитие идеи возникнет…

Основное соображение за всеми манипуляциями такое: сегментация – это попытка рассмотреть аудиторию. Не просто поделить на какие-то абстрактные множества, а именно рассмотреть, увидеть осмысленные очертания, которыми потом бизнес может манипулировать.

Запуск процедуры кластеризации редко дает с первого раза стройный результат. Чаще всего в кластерах что-то выпирает лишнее, или наоборот чего-то не хватает. Какие-то кластеры вообще интерпретации не поддаются. Тогда пробуем разный набор переменных для кластеризации. Что-то убираем, что-то добавляем.

Если видим, что какая-то переменная слишком доминирует в формировании кластеров, можем понизить ее вес, уменьшив дисперсию в ней. Для этого просто домножаем на понижающий коэффициент в интервале 0-1. Размер множителя подбираем итеративно до появления более внятных результатов кластеризации. Аналогичным образом можно повысить влияние переменной, домножив на повышающий коэффициент. В этом случае коэффициент больше 1.

Когда все кластеры становятся пригодными для интерпретации, начинаем дорабатывать сегменты. А именно, убираем из кластеров те черты, которые не укладываются в наметившуюся модель. И усиливаем черты, которые кажется логичным иметь более выраженными. Да, вот именно так, волевым решением 🙂

Ведь для процедуры кластерного анализа абсолютно все равно, какой содержательный смысл будет за кластерами. Это просто калькулятор, в который засунули данные. Все переменные с равными весами. А в жизни-то все-ли факторы одинаково влияют на поведение? Нет. Но и процедура подбора весов может оказаться сверх-трудоемкой, пока все кластеры разлягутся идеально без каких либо противоречий.

Поэтому, нащупав общую картину, можно ее немного улучшить в почти ручном режиме.

Итак, если надо убрать из кластера нелогичные черты. На этом этапе удобнее обзавестись факторизованными данными, если это еще не было сделано ранее. Далее, выкидываем из кластера тех членов, у которых «неудобный» фактор имеет высокие значения. Как много таких выкинуть? Часто достаточно 5-10% от размера кластера.

Если факторным решением не получается обзавестись, тогда дискриминантный анализ в помощь. Считаем вероятности принадлежности к кластерам. Выкидываем тех, у кого присутствует ненужный признак и при этом у них наименьшая вероятность принадлежности к кластеру.

Выкинутых членов затем распределяем по другим кластерам при помощи снова того же дискриминантного анализа.

И в случае, когда надо усилить какую-то черту кластера, делаем обратную процедуру. Собираем из других кластеров тех, кто обладает нужной фичей/имеет высокое значение нужного фактора и при этом имеет относительно высокую вероятность принадлежать к нужному нам кластеру.

И на закуску. Бывает, что две фичи сильно коррелированны, но направление связи противоречит нашим представлениям. Тогда, скорее всего, за этим кроется какой-то инсайт. Если объяснение не находится, противоречивые данные можно проигнорировать, оставив до лучших времен.

Например, в какой-то момент мы столкнулись с тем, что статусный сегмент вдруг хочет находиться в гармонии с окружающими. Нелогично. Статус – это про то, чтобы заявить о себе, противопоставить. А гармония – про принадлежность к сообществу. Но когда несколько раз на разных проектах, на разных рынках получили похожую картину, закралось сомнение, что это не глюк данных. А фича. Предположительно, статусные да, хотят выделяться. Но борьба за признание, как ни поверни, ведет к стрессу. Вот потому, вероятно, статусные и хотят гармонии с окружающими. Я весь такой из себя, вы меня признайте как-нибудь побыстрее, а то утомительно всем доказывать…

Leave a Comment

Ваш e-mail не будет опубликован. Обязательные поля помечены *