Сегментация. Вандалим кластеры

Сейчас не будем про все дебри сегментации. Только про файнтюнинг.

Обсуждение результатов и с клиентами, и с коллегами выводит на мысль, что наши доморощенные подходы часто в диковинку. Ну тогда поделимся. Нам не жалко. А может у кого-то и конструктивное развитие идеи возникнет…

Основное соображение за всеми манипуляциями такое: сегментация – это попытка рассмотреть аудиторию. Не просто поделить на какие-то абстрактные множества, а именно рассмотреть, увидеть осмысленные очертания, которыми потом бизнес может манипулировать.

Запуск процедуры кластеризации редко дает с первого раза стройный результат. Чаще всего в кластерах что-то выпирает лишнее, или наоборот чего-то не хватает. Какие-то кластеры вообще интерпретации не поддаются. Тогда пробуем разный набор переменных для кластеризации. Что-то убираем, что-то добавляем.

Если видим, что какая-то переменная слишком доминирует в формировании кластеров, можем понизить ее вес, уменьшив дисперсию в ней. Для этого просто домножаем на понижающий коэффициент в интервале 0-1. Размер множителя подбираем итеративно до появления более внятных результатов кластеризации. Аналогичным образом можно повысить влияние переменной, домножив на повышающий коэффициент. В этом случае коэффициент больше 1.

Когда все кластеры становятся пригодными для интерпретации, начинаем дорабатывать сегменты. А именно, убираем из кластеров те черты, которые не укладываются в наметившуюся модель. И усиливаем черты, которые кажется логичным иметь более выраженными. Да, вот именно так, волевым решением 🙂

Ведь для процедуры кластерного анализа абсолютно все равно, какой содержательный смысл будет за кластерами. Это просто калькулятор, в который засунули данные. Все переменные с равными весами. А в жизни-то все-ли факторы одинаково влияют на поведение? Нет. Но и процедура подбора весов может оказаться сверх-трудоемкой, пока все кластеры разлягутся идеально без каких либо противоречий.

Поэтому, нащупав общую картину, можно ее немного улучшить в почти ручном режиме.

Итак, если надо убрать из кластера нелогичные черты. На этом этапе удобнее обзавестись факторизованными данными, если это еще не было сделано ранее. Далее, выкидываем из кластера тех членов, у которых «неудобный» фактор имеет высокие значения. Как много таких выкинуть? Часто достаточно 5-10% от размера кластера.

Если факторным решением не получается обзавестись, тогда дискриминантный анализ в помощь. Считаем вероятности принадлежности к кластерам. Выкидываем тех, у кого присутствует ненужный признак и при этом у них наименьшая вероятность принадлежности к кластеру.

Выкинутых членов затем распределяем по другим кластерам при помощи снова того же дискриминантного анализа.

И в случае, когда надо усилить какую-то черту кластера, делаем обратную процедуру. Собираем из других кластеров тех, кто обладает нужной фичей/имеет высокое значение нужного фактора и при этом имеет относительно высокую вероятность принадлежать к нужному нам кластеру.

И на закуску. Бывает, что две фичи сильно коррелированны, но направление связи противоречит нашим представлениям. Тогда, скорее всего, за этим кроется какой-то инсайт. Если объяснение не находится, противоречивые данные можно проигнорировать, оставив до лучших времен.

Например, в какой-то момент мы столкнулись с тем, что статусный сегмент вдруг хочет находиться в гармонии с окружающими. Нелогично. Статус – это про то, чтобы заявить о себе, противопоставить. А гармония – про принадлежность к сообществу. Но когда несколько раз на разных проектах, на разных рынках получили похожую картину, закралось сомнение, что это не глюк данных. А фича. Предположительно, статусные да, хотят выделяться. Но борьба за признание, как ни поверни, ведет к стрессу. Вот потому, вероятно, статусные и хотят гармонии с окружающими. Я весь такой из себя, вы меня признайте как-нибудь побыстрее, а то утомительно всем доказывать…

Карта рынка

Как извлечь картину мира из сознания потребителей, будучи уверенным, что она не искажена.

Как упоминалось в заметке про имиджи, анализ соответствий имеет такой существенный недостаток, как зависимость карты от набора марок и высказываний.

В этой заметке рассмотрим подход, который дает карту марок, не зависящую ни от набора высказываний, ни от количества марок.

Начнем с примера.
Пусть это будет карта станций метро.
Зная расстояния между станциями, мы можем воспроизвести расположение станций друг относительно друга.

В основе анализа лежит многомерное шкалирование, на вход которому подается матрица расстояний между объектами.

Чтобы не усложнять, ограничимся 4 станциями. В табличном виде матрица расстояний будет такой:

ВДНХ Щёлковская Люблино Университет
ВДНХ 0 9.91 18.1 15.9
Щёлковская 9.91 0 15.1 21.1
Люблино 18.1 15.1 0 14.4
Университет 15.9 21.1 14.4 0

При помощи многомерного шкалирования построим по этой матрице карту.
Она будет идентична карте города, с той разницей, что для полного совпадения ее нужно масштабировать и ориентировать по сторонам света.

Как видим, карты совпадают. Это говорит о точности инструмента.
И как не трудно догадаться, карта на основе расстояний между парами объектов не зависит от количества объектов. Можно добавлять и удалять точки. Оставшиеся точки не поменяют расположения друг относительно друга.

Теперь вопрос: как извлечь аналогичную картину мира из сознания потребителей.
Для этого нам нужно получить матрицу расстояний между марками. Один из способов – упражнение по группировке марок.

Респондентам предлагается объединить марки в группы таким образом, чтобы для респондента лично марки в группе были взаимозаменяемы между собой и при покупке респондент рассматривал бы их как похожие. Респондент сам решает, сколько групп создать и по каким признакам считать марки взаимозаменяемыми.

Матрица расстояний между марками рассчитывается на основе частоты, с которой всевозможные пары марок попадают в одинаковые группы. На основе матрицы расстояний строим карту. А карту можем дополнить иерархическим кластерным анализом, который покажет, какие марки можно объединить в сегменты, а какие – нет.

И так, карта марок есть. Осталось интерпретировать ее.
В этом поможет дополнительная информация, которую можно нанести на карту при помощи многомерного развертывания. Это может быть все та же табличка с имиджами или какая-то другая описательная информация. Например, соц-дем.

Огромный плюс полученной карты в том, что она неуязвима от неполноты информации. Карту можно делать более детальной или менее детальной, можно даже ошибиться с высказываниями. Но расположение объектов на карте друг относительно друга будет оставаться неизменным. И ошибка с каким-нибудь высказыванием останется частной ошибкой, не повлияв на всю картину мира.

Дополнительными плюсами карты будут:

  • Богатые возможности по интерпретации – можно наносить практически любую информацию. Например, имиджевые высказывания, обстоятельства последнего потребления, мотивы, соц-дем..
  • Марки можно группировать в сегменты, имея твердое основание в виде иерархического кластерного анализа.
  • Сегменты марок можно описать в терминах объемов и стоимости.
  • Сегменты можно описать в терминах удовлетворенности.
  • Белые пространства на карте можно интерпретировать, как ниши. Близлежащие сегменты от белых пространств могут дать идеи для генерации новых продуктов. В особенности, если близлежащие сегменты характеризуются низкой удовлетворенностью.

Недостатками описанного подхода будут:

  • Трудоемкость. Упражнение по группировке марок удлиняет анкету и требует внимательности. Сам анализ трудоемкий.
  • Сложно интерпретировать расстояния на карте. Нет критерия, который позволит одно расстояние считать большим, а другое маленьким. Отчасти эта проблема решается группировкой марок при помощи кластерного анализа
  • Карты сложно анализировать в динамике.

Другие варианты матрицы расстояний между марками

Хорошим вариантом расстояний между марками будет матрица перекрестных эластичностей, полученная на основе choice-based conjoint. Перекрестные эластичности говорят о том, насколько легко покупатели переключаются с одной марки на другую.

Еще один вариант для расчета расстояний между марками – репертуар марок. Но репертуар марок нужно использовать с оглядкой.

В репертуаре могут присутствовать и взаимозаменяемые продукты (похожи между собой), и взаимодополняющие (наоборот, сильно различаются). Нужно быть уверенным, что репертуар состоит только из взаимозаменяемых продуктов.

Так, например, на рынке шоколадных батончиков в репертуаре будут оба типа продуктов. Батончики Snickers и Bounty скорее окажутся взаимодополняющими, так как сильно отличаются. Батончики Snickers и Золотой Степ могут оказаться взаимозаменяемыми (второй – калька с первого). На таких рынках карту марок на основе репертуара строить не корректно.

Другой пример – репертуар страховых компаний в рамках одного страхового продукта. С большой вероятностью в репертуаре будут взаимозаменяемые компании. Нет смысла покупать несколько однотипных страховок в разных компаниях в один и тот же период времени.

 


Поделившись этой публикацией в соц-сетях, Вы помогаете нам делать больше хороших исследований. А значит, этот мир может стать чуточку лучше…