Базовые методы анализа, реализованные в аналитической платформе Deductor часть II

Материал из ВикиПро: Отраслевая энциклопедия. Окна, двери, мебеля
Перейти к: навигация, поиск
Мне нравится
4

Knowledge Discovery in Databases

KDD (Knowledge Discovery in Databases) – извлечение знаний из баз данных. Это процесс поиска полезных знаний в «сырых данных». KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных и интерпретации полученных результатов. Привлекательность этого подхода заключается в том, что вне зависимости от предметной области мы применяем одни и те же операции:

  1. Подготовка исходного набора данных. Этот этап заключается в создании набора данных, в том числе консолидации сведений из различных источников, определение выборки, которая и будет в последствии анализироваться. Для этого должны существовать развитые инструменты доступа к различным источникам данных: файлам разных форматов, базам данных, учетным системам.
  2. Предобработка и очистка данных. Для того чтобы эффективно применять методы анализа, следует обратить серьезное внимание на вопросы предобработки данных. Данные могут содержать пропуски, шумы, аномальные значения и т.д. Кроме того, данные могут быть избыточны, недостаточны и т.д. В некоторых задачах требуется дополнить данные некоторой априорной информацией. Наивно предполагать, что если подать любые данные на вход системы в существующем виде, то на выходе получим полезные знания. Данные должны быть качественны и корректны с точки зрения используемого метода анализа. Более того, иногда размерность исходного пространства может быть очень большой, и тогда желательно применение специальных алгоритмов понижения размерности: отбор наиболее значимых признаков и отображение данных в пространство меньшей размерности.
  3. Трансформация данных. Для различных методов анализа требуются данные, подготовленные в специальном виде. Например, некоторые методы анализа в качестве входных полей могут использовать только числовые данные, а некоторые, наоборот, только категориальные.
  4. Data Mining. На этом шаге применяются различные алгоритмы для поиска зависимостей, новых знаний, или говорят, что строятся модели. Выделяют два больших класса моделей – описательные и предсказательные. Они решают различные задачи: классификацию, регрессию, кластеризацию, установление ассоциаций и т.д. Для этого используются как классические статистические методы, так и самообучающиеся алгоритмы и машинное обучение (нейронные сети, деревья решений и др.).
  5. Постобработка данных. Тестирование, интерпретация результатов и практическое применение полученных знаний в выбранной прикладной области.

Описанный процесс повторяется итеративно, а реализация этих этапов позволяет автоматизировать процесс извлечения знаний. Например, нужно сделать прогноз объемов продаж на следующий месяц. Есть сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующим шагом будет предобработка собранных данных. Например, их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Это можно сделать с помощью линейной регрессии или нейронных сетей. Имея такую модель, можно получить прогноз, подав на вход модели нашу историю продаж. Зная прогнозное значение, его можно использовать, например, для оптимизации закупок товара.

Data Mining

Data Mining дословно означает «добыча» данных. Это процесс обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining чаще всего решает четыре задачи — ассоциация, кластеризация, классификация и регрессия.

  1. Ассоциация – выявление зависимостей между связанными событиями, указывающих, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом потребительской корзины (market basket analysis). Если события можно упорядочить по времени наступления, то говорят о последовательных шаблонах – ассоциативных правилах, в которых важен порядок следования событий.
  2. Кластеризация – это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
  3. Классификация – установление функциональной зависимости между входными и дискретными выходными переменными. При помощи классификации решается задача отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
  4. Регрессия – установление функциональной зависимости между входными и непрерывными выходными переменными. Прогнозирование чаще всего сводится к решению задачи регрессии.

В современной бизнес-аналитике принято выделять два класса моделей Data Mining – описательные (дескриптивные) и предсказательные (предиктивные). Описательная аналитика ближе к сложной визуализации и разведочному анализу данных, в том плане, что результат моделирования – компактное описание множества объектов в виде кластеров, правил, групп, а для построения моделей не требуется задания целевой переменной. В первую очередь к описательным моделям относятся ассоциативные правила и кластеры. Основным недостатком описательных моделей является их относительная простота, не позволяющая эффективно решать задачи прогнозирования, предсказания новых состояний объектов. Предсказательное моделирование решает задачи «глубокой» бизнес-аналитики: кредитный скоринг, прогнозирование отклика клиентов, предвосхищение ожиданий клиента и другие, что позволяет управлять рисками, программами лояльности и прочими воздействиями. Однако требования, как к данным, так и к уровню знаний аналитика здесь значительно повышаются: большое внимание требуется уделять подготовке, очистке и предобработке выборок, борьбе с несбалансированностью классов в целевой переменной, калибровке моделей на реальные условия. В предсказательной аналитике в основном применяются алгоритмы Data Mining для задач классификации и регрессии. Кроме того, могут быть использованы результаты описательного моделирования – например, модели оценки вероятности отклика строятся отдельно по сегментам, которые были предварительно выделены кластеризацией.

Также Data Mining решает следующие задачи: анализ отклонений – выявление наиболее нехарактерных шаблонов; анализ связей (link analysis) – процесс анализа совокупности взаимоотношений между разными объектами для выявления тенденций и характеристик; анализ выживаемости (survival analysis) – модели для оценивания зависимостей между характеристиками объектов с временем его жизни. Нередко эти задачи при помощи специальных приемов сводятся к перечисленным выше четырем основным задачам Data Mining. Приведем примеры бизнес-задач, где применяются эти методы. Ассоциативные правила помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ним бутылочку соуса. Или поможет оперативно решить вопрос, какой товар-заменитель предложить оптовому дилеру вместо отсутствующего на складе. Последовательные шаблоны могут быть использованы для более глубокого понимания (и сжатого описания) логики действий покупателя. Например, сначала клиент подключил услугу международного роуминга, а затем заказал GPRS-роуминг.

Кластеризация может использоваться для сегментации с целью построения профилей клиентов (покупателей). При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально. Поэтому клиентов удобно объединить в группы – сегменты со сходными признаками. Выделять сегменты клиентов можно по нескольким группам признаков. Это могут быть сегменты по сфере деятельности, по географическому расположению. После сегментации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных или групповых предпочтений. Классификация используется в случае, если заранее известны классы отнесения объектов. Например, отнесение клиента к какой-либо категории. При кредитовании это может быть, например, отнесение клиента по каким-то признакам к одной из групп риска. В клиентской аналитике – прогнозирование отклика или ухода клиента. Регрессия чаще всего используется при прогнозировании объемов продаж, в этом случае зависимой величиной являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. Регрессия часто идет рядом с бинарной классификацией – например, когда требуется не только предсказать событие, но и оценить его вероятность наступления (например, вероятность выхода на просрочку у заемщика).

Для анализа отклонений необходимо сначала построить шаблон типичного поведения изучаемого объекта. Например, поведение человека при использовании кредитных карт. Тогда будет известно, что клиент (покупатель) использует карту регулярно два раза в месяц и приобретает товар в пределах определенной суммы. Отклонением будет, например, не запланированное приобретение товара по данной карте на большую сумму. Это может говорить об ее использовании другим лицом, то есть о факте мошенничества. Анализ связей становится широко востребован при изучении социальных сетей, как закрытых, так и открытых, а также при выявлении случаев мошенничества. Анализ выживаемости применяется для прогнозирования момента, в который вероятность ухода клиента максимальная, с целью проведения превентивных мер для удержания клиентской базы. Перечисленные выше базовые методы анализа данных используются для создания информационно-аналитических систем и подсистем. Причем, под такой системой (подсистемой) понимается не только какая-то одна программа. Некоторые механизмы анализа могут быть реализованы на бумаге, некоторые на компьютере с использованием электронных таблиц, баз данных и других приложений. Однако такой подход при частом использовании неэффективен. Намного лучшие результаты даст применение единого хранилища данных и единой программы, содержащей в себе всю функциональность, необходимую для реализации концепции KDD.

Вклад участника:

Троцюк В.И.

Обратная связь Автору