Что такое DATA MINING?

Дата размещения: 20 марта 2011
>>Допускается републикация статьи с индексируемой ссылкой - "Источник: ELport.ru"

Так что такое Data Mining?

Термин Data Mining распространился в бизнесе в 90-х годах двадцатого века. К тому времени на многих предприятиях (в первую очередь, за рубежом) в связи с эксплуатацией корпоративных информационных систем (КИС) уже были накоплены большие объемы данных.

В КИС регистрируются разные подробности деятельности предприятия, собирается информация за многие года – объемы и динамика продаж, доходы и расходы и их источники, сведения о клиентах и партнерах, результаты работы подразделений и менеджеров .…

Что делать с этими данными? Можно просто удалить, освободив место на серверах. Можно организовать их хранение в хранилищах данных с тем, чтобы время от времени просматривать, вспоминая былое. Можно использовать для сравнений и анализа сегодняшней деятельности, например, чтобы выявить тех, кто стал работать хуже. Но, оказалось, что есть и другие возможности. И эти возможности предоставляет Data Mining.

В этом месте подготовленный читатель скажет: «Ну что вы, право, дорогой автор. Какие-такие новые возможности? Есть ведь математическая статистика с ее десятилетиями проверенными методами - можно прогнозировать, выявлять влияния факторов, классифицировать и т.п. Зачем еще какой-то Дата Мининг?»

И вот тут-то пора объяснить, что такое Data Mining (используются также близкие названия - интеллектуальный анализ данных и KDD – knowledge discovery in databases). Этот термин объединяет методы и технологии «раскопки данных», выявления в них скрытых закономерностей и взаимосвязей. Например, такого рода:

- причинно-следственные и хронологические связи между событиями. Так, исследования в супермаркете могут показать, что 65% купивших пиво, покупают и чипсы. А вот при наличии скидки за такой комплект оказывается, что чипсы приобретают уже 90% покупателей;

- взаимосвязи между данными и правилами классификации объектов. Например, на основе анализа данных о покупателях можно выявить правила их классификации с тем, чтобы отнести каждого покупателя (в том числе нового) к тому или иному классу и подобрать для него индивидуальный пакет услуг;

- логические взаимосвязи между данными, на основе которых по некоторым значениям параметров А, В, С можно предположить (предсказать) значение параметра D.

ЧЕМ ЖЕ ПРИВЛЕКАТЕЛЬНЫ методы Data Mining для современных менеджеров и чем они отличны от методов статистики?

На самом деле между статистикой и Data Mining нет никаких противоречий, а многие современные статистические пакеты включают в свой состав элементы Data Mining.

В то же время традиционные статистические методы:

а) предполагают наличие больших объемов однородных данных , т.е. тех, где можно выявить тенденции (но всегда ли есть такие данные и в нужном объеме?);

б) ориентированы на использование средних величин (известный по этому поводу казус – по отчету дежурного врача средняя температура больных в больнице 36,6, т.е все в порядке! Правда, у некоторых пациентов температура за 40, а у других – 28…);

в) выражают результаты своей работы в виде абстрактных формул, которые не всегда понятны менеджерам и не вызывают у них должного доверия для принятия решений;

г) применимы более для проверки гипотез, чем для их выявления.

ХАРАКТЕР РАБОТЫ С ДАННЫМИ У МЕТОДОВ DATA MINING БЛИЖЕ К «ЧЕЛОВЕЧЕСКОМУ», т.е. они могут выводить свои суждения при относительно небольших объемах данных, пусть и с разной степенью уверенности. Они используются для обнаружения новых, ранее неизвестных закономерностей (т.е. для вывода гипотез). Найденные закономерности, т.е. знания методы Data mining могут представлять в таком виде, который понятен практику.

Последнее, кстати, является весьма важным. Потому что предлагаемые компьютером результаты, человек (менеджер) будет использовать для принятия управленческих решений. Он же будет нести и ответственность за принятые решения. И здесь важно, чтобы этому менеджеру была понятна логика рассуждений компьютера, чтобы он мог согласиться с результатами «умной» машины и принять их (или отвергнуть).

Для отображения знаний в форме, понятной для человека, широко используются правила вида «Если... То...». Именно выявление и представление таких логических закономерностей является «изюминкой» систем Data Mining.

Сравните с точки зрения наглядности и объяснимости два способа представления знаний, которые выявил компьютер на основе анализа результатов деятельности интернет-магазина:

1) Представление с помощью логических правил «Если.. То»:

«Если А > 250 (средний объем заказов покупателя > 250 руб)
И В > 4 (частота покупок > 4 в месяц),
То С = 2 (класс покупателя = 2) с долей уверенности = 0,7»,

где в класс «2» включаются те покупатели, которые охотно и в числе первых приобретают новые товары, появляющиеся в магазине.

2) А теперь представим аналогичное правило классификации с помощью несложной формулы разделяющей поверхности (она также может быть получена на основе анализа данных о деятельности магазина):

С = w + q A + t В

где w, q, t– некоторые коэффициенты, подобранные на основе анализа данных и, вообще говоря, не имеющие никакого предметного смысла.

После подстановки в эту формулу значений А и В получим некоторое С. И вот, если это С больше нуля, тогда покупатель принадлежит классу «2», т.е. он наверное будет покупать новый товар.

Согласитесь, что первый способ обладает большей наглядностью. Эти правила помогают менеджеру или аналитику увидеть и понять, какую закономерность нашел компьютер. И если компьютер спрогнозировал поведение покупателя, он может с помощью этих правил наглядно объяснить, почему был сделан тот или иной вывод.

А что может сделать для объяснения своих рассуждений компьютер во втором случае? Ну, он может на вопрос, почему данный покупатель скорее всего купит (или не купит) новый товар, дать примерно такое объяснение:

«... потому, что С = 30, что следует из формулы
С = 0,5 + 40 А + 0,9В ...»

- э-э, а что такое 0,5 и при чем здесь 40 и 0,9 ? – спросит шеф у своего аналитика. На что аналитик ему скажет:
- ну,... это так, ерунда. Честно говоря, я и сам не понимаю, что означают эти цифры. Но, поверьте, все это вполне работоспособно. И раз уж система сказала, что на ваш товар покупателей не будет, значит, можете не волноваться, так оно и случится...

Вобщем, в случае подобных формул пользователь должен просто верить системе, ее выводам, ее оценкам и прогнозам.

Другим наглядным способом представления найденных знаний является дерево решений, которое строит система Data Mining по результатам анализа данных. На самом деле, дерево решений тоже можно рассматривать как последовательность правил «Если ... То».

Но вместо «Если» здесь задается вопрос о значении какого-то признака (например, «Скажите, батенька, ‘А’ принимает значение больше 250 руб.?»).

Вместо «То» выполняется движение к новому вопросу в зависимости от ответа на предыдущий. В нашем простом примере, могло бы быть такое дерево решений:

А >250? – «нет», значит С = 1
«да», тогда B > 4 ? – «нет», значит С = 1
«да», значит, С = 2 (с коэффициентом уверенности = 0,7)

В этой записи, правда, не сразу распознаешь дерево. Но его нетрудно нарисовать, что некоторые системы Data Mining и делают.

Как видно, и здесь есть возможность использовать коэффициент уверенности. Значение такого коэффициента будет тем больше, чем больше примеров, подтверждающих данную закономерность, найдено в анализируемой базе данных.

Вот вкратце, что есть такое Data Mining – современное направление развития и применения информационных технологий в бизнесе. Кстати, в области интернет-коммерции известен также термин Web Mining. Специфика этого термина означает применение методов Data Mining для анализа данных, распределенных по узлам сети интернет.

И есть также термин Web Usage Mining – обнаружение закономерностей в поведении пользователей сайта (например, посетителей интернет-магазина). Применительно к интернету появился и термин Text Mining (Web Content Mining) – выявление знаний из текстов. В частности, Text Mining предполагает создание обобщенных портретов некоторых объектов (людей, компаний и т.п.) на основе анализа текстов, которые посвящены этим объектам и которые могут быть найдены в сети интернет.

Отмечу несколько названий систем, обладающих возможностями выявления знаний. Относительно простыми являются зарубежные пакеты See5, WizWhy. Более «разносторонней» системой интеллектуального анализа данных является отечественный пакет Deduktor.

Для тех, кто серьезно заинтересуется этим направлением, могу порекомендовать сайт производителя – www.basegroup.ru, на котором представлено много полезных сведений из области Data Mining. Там же можно бесплатно скачать облегченную версию пакета Deduktor Light для ознакомления и учебной работы (эта версия в отличие от профессиональной имеет ограничение на объем анализируемых баз данных).

А то, насколько методы Data Mining и пакет Deduktor ориентированы на реальный бизнес, показывают хотя бы вот такие названия (см. на сайте www.basegroup.ru):

Deductor:RetailProfiler -- мониторинг качества данных продаж сети розничной торговли ;

Deductor:Credit -- кредитование физических лиц

Deductor:Electra -- прогноз потребления электроэнергии ;

Deductor:CRM -- анализ клиентской базы

и другие.
 

автор: Игорь Н.Глухих,  2007.

P.S. Для тех, кто хотел бы узнать больше, сообщу некоторые дополнительные сведения о Data Mining


Базовые алгоритмы, которые используются в современных системах Data Mining, разработаны в 60-70-е года, в частности, советскими учеными, которые уже тогда применяли методы интеллектуального анализа данных для решения народнохозяйственных задач. То есть новый термин, пришедший к нам из-за рубежа, как это часто бывает, опирается на результаты наших же ученых.

Серьезная книга, обобщающая результаты многолетних исследований по данной теме, написана одним из наиболее авторитетных специалистов в области интеллектуального анализа данных – профессором Н.Г.Загоруйко. Книга выпущена в 1999г в Институте математики Сибирского отделения наук (г. Новосибирск) и называется «Прикладные методы анализа данных и знаний» (внимание – для чтения требуется математическая подготовка).

В 2004г. вышло учебное пособие «Методы и модели анализа данных OLAP и Data Mining (авторы – А., Барсегян, М.Куприянов и др., издательство «БХВ-Петербург).

Но, пожалуй, наиболее популярно эта тема изложена в другой книге - «Data Mining. Учебный курс» (авторы – В.Дюк, А. Самойленко, С-Петербург, издательство «Питер»), которая вышла в 2001г. К книге прилагался диск с записью демонстрационных версий программ See5, WizWhy и др.

Кстати, материалы по Data Mining , которые встречаются в интернете, часто основываются именно на этой книге.

И еще, в этой книге приводятся такие данные относительно одной из популярных систем - WizWhy. По данным авторов к 2001 году число продаж ее было 30 000 при стоимости около 4000 $. Перемножим эти цифры – получается 120 000 000$. Ну как, неплохая сумма? Вот так можно заработать на продаже вообще то не очень сложного, но наукоемкого программного продукта.






Похожие статьи

Как выбрать участок для строительства дома
Как правильно подобрать землю под загородное строительство? Какая земля Вам подходит?
Если Вы задумались о строительстве своего дома, а участка нет, то начинать нужно с покупки участка. Как правильно подобрать землю под будушее загородное строительство? Какая земля В ...
Читать полностью

Как избавиться от старого дивана с пользой для себя и окружающих
Габаритная мебель — это не пакет с мусором, ее не выбросишь просто так. Возле обычного мусорного контейнера тоже не оставишь — оштрафуют коммунальные службы. Так что, если вы реши ...
Читать полностью

Инструкция по установке флюгера
 Инструкция по сборке и монтажу изделия «Флюгер».   1.Прикрепить держак фигуры к брускам крыши саморезами 3,5х45.   ...
Читать полностью

Усиление и восстановление строительных конструкций
  Способы усиления конструкций эволюционировали на протяжении всей истории человечества. Ветер, вода, сейсмическая активность и множест ...
Читать полностью

Изготовление ворот в Минске компанией ООО Винсера
Компания «Винсера» специализируется на изготовлении ворот в Минске. Сделаем, привезем и установим выбранную ограждающую конструкцию в Минске и любом другом городе Беларуси. Предос ...
Читать полностью


Опубликовать свою статью можно из личного кабинета фирмы.
Зарегистрироваться и получить личный кабинет - здесь.
Выбор города Закрыть окно

Начните ввод города и нажмите "Поиск":
Поиск