Классификация инструментов Data Mining

Рынок инструментов Data Mining определяется широтой этой технологии и вследствие этого - огромным многообразием программного обеспечения. Приведем классификацию инструментов Data Mining согласно KDnuggets: инструменты общего и специфического назначения; бесплатные и коммерческие инструменты.

Наиболее популярная группа инструментов содержит следующие категории:

наборы инструментов; классификация данных; кластеризация и сегментация;инструменты статистического анализа;анализ текстов (Text Mining), извлечение отклонений (Information Retrieval (IR));инструменты визуализации.

Наборы инструментов. К этой категории относятся универсальные инструменты, которые включают методы классификации, кластеризации и предварительной подготовки данных. К этой группе относятся такие известные коммерческие инструменты как:

Clementine (http://www.spss.com/clementine). Data Mining с использованием Clementine является бизнес-процессом, разработанным для минимизации времени решения задач. Clementine поддерживает процесс Data Mining: доступ к данным, преобразования, моделирование, оценивание и внедрение. При помощи Clementine Data Mining выполняется с методологией CRISP-DM.DBMiner 2.0 Enterprise (http://www.dbminer.com), мощный инструмент для исследования больших баз данных; использует Microsoft Сервер SQL 7.0 Plato.IBM Intelligent Miner for Data (http://www.ibm.com/software/data/iminer/fordata/). Инструмент предлагает последние Data Mining-методы, поддерживает полный Data Mining процесс: от подготовки данных до презентации результатов. Поддержка языков XML и PMML. KXEN (Knowledge eXtraction ENgines). Инструмент, работающий на основе теории Вапника (Vapnik) SVM. Решает задачи подготовки данных, сегментации, временных рядов и SVM-классификации.Oracle Data Mining (ODM) (http://otn.oracle.com/products/bi/9idmining.html). Инструмент обеспечивает GUI, PL/SQL-интерфейсы, Java-интерфейс. Используемые методы: байесовская классификация, алгоритмы поиска ассоциативных правил, кластерные методы, SVM и другие.Polyanalyst (http://www.megaputer.com/).
Набор, обеспечивающий всесторонний Data Mining. Сейчас, помимо методов прежних версий, также включает анализ текстов, лес решений, анализ связей. Поддерживает OLE DB for Data Mining и DCOM-технологию.SAS Enterprise Miner (http://www.sas.com/). Интегрированный набор, который обеспечивает дружественный GUI. Поддерживается методология SEMMA.SPSS (http://www.spss.com/clementine/). Один из наиболее популярных инструментов, поддерживается множество методов Data Mining.Statistica Data Miner (http://www.StatSoft.com/). Инструмент обеспечивает всесторонний, интегрированный статистический анализ данных, имеет мощные графические возможности, управление базами данных, а также приложение разработки систем.Примером российской разработки инструментального набора, кроме Polyanalyst, является пакет Deductor, при помощи которого в предыдущих лекциях были решены некоторые задачи. Deductor будет подробно рассмотрен в одной из последующих лекций.

Наиболее известный представитель свободно распространяемого набора инструментов - пакет Weka (http://www.cs.waikato.ac.nz/ml/weka/index.html). Weka представляет собой набор алгоритмов машинного обучения для решения реальных Data Mining-проблем. Weka написана на Java и запускается практически со всех платформ.

Вторая группа задач представлена инструментами, реализующими следующие решения:

инструментарий для поиска ассоциативных правил;агенты;оценивание, регрессии и прогнозирование;анализ связей;последовательные шаблоны и временные ряды;инструменты BI (Business Intelligence), Database and OLAP software;инструменты преобразования и очистки данных;библиотеки, компоненты и инструментальные наборы для разработчиков создания встроенных приложений Data Mining;Web Mining: анализ поведения сайтов, XML mining;поиск на Web;Audio and Video Mining. Некоторые из этих групп инструментов будут более детально рассмотрены далее.

Среди поставщиков Data Mining можно выделить ряд компаний, основная цель которых - консультирование по применению Data Mining.Одна из наиболее известных среди них - компания Two Crows.

Поставщики Data Mining

В начале 90-х годов прошлого столетия рынок Data Mining насчитывал около десяти поставщиков. В средине 90-х число поставщиков, представленных компаниями малого, среднего и большого размера, насчитывало более 50 фирм.

Сейчас к аналитическим технологиям, в том числе к Data Mining, проявляется огромный интерес. На этом рынке работает множество фирм, ориентированных на создание инструментов Data Mining, а также комплексного внедрения Data Mining, OLAP и хранилищ данных. Инструменты Data Mining во многих случаях рассматриваются как составная часть BI-платформ, в состав которых также входят средства построения хранилищ и витрин данных, средства обработки неожиданных запросов (ad-hoc query), средства отчетности (reporting), а также инструменты OLAP.

Разработкой в секторе Data Mining всемирного рынка программного обеспечения заняты как всемирно известные лидеры, так и новые развивающиеся компании. Инструменты Data Mining могут быть представлены либо как самостоятельное приложение, либо как дополнения к основному продукту.

Последний вариант реализуется многими лидерами рынка программного обеспечения. Так, уже стало традицией, что разработчики универсальных статистических пакетов, в дополнение к традиционным методам статистического анализа, включают в пакет определенный набор методов Data Mining. Это такие пакеты как SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Некоторые разработчики OLAP-решений также предлагают набор методов Data Mining, например, семейство продуктов Cognos. Есть поставщики, включающие Data Mining решения в функциональность СУБД: это Microsoft (Microsoft SQL Server), Oracle, IBM (IBM Intelligent Miner for Data).

Рынок поставщиков Data Mining активно развивается. Постоянно появляются новые фирмы-разработчики и новые инструменты.

Интересными являются данные опроса "Инструменты Data Mining, которые Вы регулярно используете", проведенного в мае 2005 года на Kdnuggets. Его результаты представлены на рис. 22.1.

Рис. 22.1. Инструменты Data Mining, используемые голосовавшими в 2005 году

Сравнивая данные этого опроса с подобными опросами 2002 и 2003 годов, можно сказать, что популярность некоторых продуктов возрастает, а некоторых - падает. Это касается как коммерческих, так и свободно распространяемых инструментов. Например, что касается бесплатного инструментария: в 2003 году, по сравнению с 2002 годом, часть голосов от инструмента Weka ушли к инструментам Prudsys Xelopes и R, в 2005 же году количество голосов за инструмент Weka увеличилось, а за Xelopes проголосовало существенно меньше пользователей. Подобный пример можно привести и из коммерческого программного обеспечения: популярность Microsoft Сервер SQL для Data Mining в 2003 году, по сравнению с 2002 годом, возросла, а в 2005 году - снизилась.

Таким же образом изменялись позиции большинства инструментов, но результаты всех трех опросов представлены практически одним и тем же списком поставщиков.

Как видно из опроса, число респондентов вдвое меньше числа голосов, и каждый голосовавший мог выбрать несколько инструментов. Числа, представленные в опросе, означают фактическое число голосов. Процент по каждому инструменту не определяется, поскольку он будет отличаться в зависимости от того, вычислен ли он относительно числа респондентов или от числа голосов.

В комментариях к этому опросу по поводу участия в нем продавцов, редактор сайта отмечает, что при голосовании были использованы механизмы против двойного голосования, но его нельзя считать научным, поскольку за некоторые продукты представители компаний разработчиков голосовали намного более активно, чем за другие (некоторые очевидные двойные голоса продавцов были удалены). Однако эти опросы, по оценкам редактора, действительно дают ощущение разнообразия существующих инструментов Data Mining.

Относительно цен на инструменты, редактор отмечает, что они имеют тенденцию изменяться, а также отличаются по стоимости для бизнес-пользователей и научных работников, так как последние иногда могут получить бесплатную лицензию для исследований.

Представленные выше продукты, согласно предполагаемой цене для бизнес-пользователей на май 2005 года, сгруппированы следующим образом:

Уровень предприятия: (US $10000 и больше) Fair Isaac, IBM, Insightful, KXEN, Oracle, SAS, SPSS.

Уровень отдела: (от $1000 до $9999) Angoss, CART/MARS/TreeNet/Random Forests, Equbits, GhostMiner, Gornik, Mineset, MATLAB, Megaputer, Microsoft SQL Server, Statsoft Statistica, ThinkAnalytics.

Личный уровень: (от $1 до $999): Excel, See5.Свободно распространяемое программное обеспечение: C4.5, R, Weka, Xelopes.Инструменты Data Mining можно оценивать по различным критериям. Оценка программных средств Data Mining с точки зрения конечного пользователя определяется путем оценки набора его характеристик. Их можно поделить на две группы: бизнес-характеристики и технические характеристики. Это деление является достаточно условным, и некоторые характеристики могут попадать одновременно в обе категории.

Характеристика № 1. Интуитивный интерфейс.

Интерфейс - среда передачи информации между программной средой и пользователем, диалоговая система, которая позволяет передать человеку все необходимые данные, полученные на этапе формализации и вычисления.

Интерфейс подразумевает расположение различных элементов, в т.ч. блоков меню, информационных полей, графических блоков, блоков форм, на экранных формах.

Для удобства работы пользователя необходимо, чтобы интерфейс был интуитивным.

Интуитивный интерфейс позволяет пользователю легко и быстро воспринимать элементы интерфейса, благодаря чему диалог "программная среда-пользователь" становится проще и доступней.

Понятие интуитивного интерфейса включает также понятие знакомой окружающей среды и наличие внятной нетехнической терминологии (например, для сообщения пользователю о совершенной ошибке).

Характеристика № 2. Удобство экспорта/импорта данных.

При работе с инструментом Data Mining-пользователь часто применяет разнообразные наборы данных, работает с различными источниками данных. Это могут быть текстовые файлы, файлы электронных таблиц, файлы баз данных.

Инструмент Data Mining должен иметь удобный способ загрузки (импорта) данных. По окончании работы пользователь также должен иметь удобный способ выгрузки (экспорта) данных в удобную для него среду. Программа должна поддерживать наиболее распространенные форматы данных: txt, dbf, xls, csv и другие.

Дополнительное удобство для пользователя создается при возможности загрузки и выгрузки определенной части (по выбору пользователя) импортируемых или экспортируемых полей.

Характеристика № 3. Наглядность и разнообразие получаемой отчетности

Эта характеристика подразумевает получение отчетности в терминах предметной области, а также в качественно спроектированных выходных формах в том количестве, которое может предоставить пользователю всю необходимую результативную информацию.

Характеристика № 4. Легкость обучения работы с инструментарием

Характеристика № 5. Прозрачные и понятные шаги Data Mining-процесса

Характеристика № 6. Руководство пользователя.Существенно упрощает работу пользователя наличие руководства пользователя, с пошаговым описанием шагов генерации моделей Data Mining.

Характеристика № 7. Удобство и простота использования. Существенно облегчает работу начинающего пользователя возможность использовать Мастер или Визард (Wizard).

Характеристика № 8. Для пользователей, не владеющих английским языком, важной характеристикой является наличие русифицированной версии инструмента, а также документации на русском языке.

Характеристика № 9. Наличие демонстрационной версии с решением конкретного примера.

Характеристика № 10. Возможности визуализации. Наличие графического представления информации существенно облегчает интерпретируемость полученных результатов.

Характеристика № 11. Наличие значений параметров, заданных по умолчанию. Для начинающих пользователей - это достаточно существенная характеристика, так как при выполнении многих алгоритмов от пользователя требуется задание или выбор большого числа параметров. Особенно много их в инструментах, реализующих метод нейронных сетей.

В нейросимуляторах чаще всего заранее заданы значения основных параметров, иной раз неопытным пользователям даже не рекомендуется изменять эти значения. Если же такие значения отсутствуют, пользователю приходится перепробовать множество вариантов, прежде чем получить приемлемый результат.

Характеристика № 12. Количество реализуемых методов и алгоритмов. Во многих инструментах Data Mining реализовано сразу несколько методов, позволяющих решать одну или несколько задач. Если для решения одной задачи (классификации) предусмотрена возможность использования нескольких методов (деревьев решений и нейронных сетей), пользователь получает возможность сравнивать характеристики моделей, построенных при помощи этих методов.

Характеристика № 13. Скорость вычислений и скорость представления результатов.

Характеристика № 14. Наличие квалифицированного ассистента (консультации по выбору методов и алгоритмов), консультационная поддержка.

Характеристика № 15. Возможности поиска, сортировки, фильтрации.

Такая возможность полезна как для входных данных, так и для выходной информации. Применяется сортировка по различным критериям (полям), с возможностью накладывания условий.

При условии фильтрации входных данных появляется возможность построения модели Data Mining на одной из выборок набора данных. Необходимость и польза от проведения такого анализа была описана в одной из лекций, посвященных процессу Data Mining. Фильтрация выходной информации полезна с точки зрения интерпретации результатов. Так, например, иногда при построении деревьев решений результаты получаются слишком громоздкими, и здесь могут оказаться полезными функция как фильтрации, так и поиска и сортировки. Дополнительное удобство для пользователя - цветовая подсветка некоторых категорий записей.

Характеристика № 16. Защита, пароль. Очень часто при помощи Data Mining анализируется конфиденциальная информация, поэтому наличие пароля доступа в систему является желательной характеристикой для инструмента.

Характеристика № 17.Платформы, на которых поддерживается работа инструмента, в частности: PC Standalone (95/98/2000/NT), Unix Server, Unix Standalone, PC Client, NT Server.

Описанные характеристики являются критериями функциональности, удобства, безопасности инструмента Data Mining. При выборе инструмента следует руководствоваться потребностями, а также задачами, которые необходимо решить.

Так, например, если точно известно, что фирме необходимо решать исключительно задачи классификации, то возможность решения инструментом других задач совсем не является критичной. Однако, следует учитывать, что внедрение Data Mining при серьезном подходе требует серьезных финансовых вложений, поэтому необходимо учитывать все возможные задачи, которые могут возникнуть в перспективе.

Программное обеспечение Data Mining для решения задач оценивания и прогнозирования

Примером коммерческого программного обеспечения этой группы является инструмент Alyuda Forecaster XL (http://www.alyuda.com/forecasting-tool-for-excel.htm).

Инструмент реализован в виде Excel-надстройки и предназначен для решения задач прогнозирования и оценивания с использованием нейронных сетей.

Подобный инструмент от российских разработчиков - фирмы НейрОК - Excel-надстройка ExcelNeuralPackage (http://www.neurok.ru/demo/enp/demo_enp.htm).

В инструменте реализованы две базовые парадигмы нейронных сетей - многослойный персептрон и сети Кохонена. С указанной страницы можно загрузить free-версию и подробное руководство пользователя.

Программное обеспечение Data Mining для поиска ассоциативных правил

Коммерческие инструменты:

Azmy SuperQuery (http://www.azmy.com/), поисковик ассоциативных правил;Clementine, набор от SPSS, включающий анализ рыночной корзины;IBM Intelligent Miner for Data (http://www.software.ibm.com/data/intelli-mine/);IREX (http://www.giwebb.com), сегментирование данных с целью оптимизации числовых результатов, например, прибыли;The LPA Data Mining Toolkit (http://www.lpa.co.uk/dtm.htm) поддерживает поиск ассоциативных правил в реляционных базах данных.Magnum Opus (http://www.rulequest.com/MagnumOpus-info.html) является быстрым инструментом поиска ассоциативных правил в данных, поддерживается операционными системами Windows, Linux и Solaris;Nuggets (http://www.data-mine.com/) - это набор, включающий поиск ассоциативных правил и другие алгоритмы;Megaputer Polyanalyst Suite (http://www.megaputer.com/), включает машину поиска ассоциативных правил;Purple Insight MineSet является набором визуального Data Mining, включающим визуализатор ассоциативных правил;Wizsoft модуль WizRule: нахождение ассоциативных правил и потенциальных ошибок данных; модуль WizWhy: использует ассоциативные правила для Data Mining;Xpertrule Miner 4.0 (http://www.attar.com/);XAffinity(TM), используется для идентификации сходств или шаблонов в транзакциях.

Свободно распространяемые инструменты:

Apriori, инструмент для нахождения ассоциативных правил при помощи алгоритма Аpriori;Apriori, FP-growth, Eclat and DIC implementations (http://www.adrem.ua.ac.be/) by Bart Goethals;ARtool (http://www.cs.umb.edu/), инструмент содержит набор алгоритмов для поиска ассоциативных правил в бинарных базах данных (binary databases);DM-II system (http://www.comp.nus.edu.sg/), инструмент включает алгоритм CBA для выполнения классификации на основе ассоциативных правил и некоторых других характеристик;FIMI, Frequent Itemset Mining Implementations (http://fimi.cs.helsinki.fi/) - является репозиторием, включающим программное обеспечение и базы данных.

Программное обеспечение для решения задач кластеризации и сегментации

Коммерческие инструменты:

ClustanGraphics3, (http://www.clustan.com/) иерархический кластерный анализ "сверху вниз", поддерживаются мощные графические возможности, www.clustan.com;CViz Cluster Visualization, (http://www.alphaworks.ibm.com/tech/cviz)-продукт для анализа наборов данных с большой размерностью, обеспечивает визуализацию наполнения кластеров объектами;IBM Intelligent Miner for Data, (http://www-4.ibm.com/software/data/iminer/), включает два кластерных алгоритма;Neusciences aXi.Kohonen, (http://www.neusciences.com/), ActiveX Control для кластеризации алгоритмом Кохонена, включает Delphi-интерфейс;PolyAnalyst, (http://www.megaputer.com/), предлагает кластеризацию, основанную на алгоритме локализации аномалий (Localization of Anomalies, LA);StarProbe, (http://www.roselladb.com/starprobe.htm) основан на Web кросс-платформенной системе, включает методы кластеризации, нейронные сети, деревья решений, визуализацию и т.д.;Visipoint (http://www.visipoint.fi/). Кластеризация методом Самоорганизующихся Карт Кохонена (Self-Organizing Map clustering) и визуализация.

Свободно распространяемые инструменты:

Autoclass C (http://ic.arc.nasa.gov/projects/bayes-group/autoclass/autoclass-c-program.html, http://ic.arc.nasa.gov), "обучение без учителя" при помощи Байесовских сетей от NASA, работает из-под операционных систем Unix и Windows;CLUTO (http://www.cs.umn.edu/~karypis/cluto, http://www.cs.umn.edu/~karypis/cluto). В инструменте реализован набор алгоритмов кластеризации, основанных на разделении данных;Databionic ESOM Tools (http://databionic-esom.sourceforge.net/). Инструмент представлен набором программ для кластеризации, визуализации и классификации, реализован алгоритм ESOM - выходящие самоорганизующиеся карты;MCLUST/EMCLUST (http://www.stat.washington.edu/fraley/mclust_home.html). В инструменте реализовано создание кластеров при помощи модельного подхода (model-based) и дискриминантного анализа, иерархическая кластеризация. Программная реализация инструмента - на Фортране с интерфейсом к S-PLUS;PermutMatrix (http://www.lirmm.fr/).

Существует множество инструментов для решения задач классификации. Инструменты этой группы строят модели, которые делят исходный набор данных на 2 или более дискретных класса. Инструменты классификации, в соответствии с используемыми методами, делятся на следующие категории: правила, деревья решений, нейронные сети, Байовские сети, метод опорных векторов и другие. Этот список практически соответствует тому набору методов классификации, который был рассмотрен во втором разделе курса лекций.

Программное обеспечение для кластерного анализа, с хорошими графическими возможностями, здесь реализовано несколько методов иерархического кластерного анализа;PROXIMUS (http://www.cs.purdue.edu/homes/koyuturk/proximus/). Инструмент для сжатия размерности, кластеризации и обнаружения образцов в дискретных наборах данных;ReCkless (http://cde.iiit.net/RNNs/) является набором кластерных алгоритмов, основанных на концепции k-ближайших соседей. Инструмент перед проведением кластеризации выполняет поиск и идентификацию шумов и выбросов для уменьшения их влияния на результаты кластеризации;Snob (http://www.csse.monash.edu.au/), программа кластеризации на основе MML (Minimum Message Length - Минимальная Длина Сообщения);SOM in Excel (http://www.geocities.com/adotsaha/NN/SOMinExcel.html), реализация метода самоорганизующихся карт Кохонена в Microsoft Excel от Angshuman Saha. Как видим из описания, многие программные продукты совмещают в себе реализацию нескольких методов, в частности, очень часто вместе с кластерными методами также реализованы и методы визуализации. Некоторые инструменты ориентированы на работу только с дискретными данными. Это следует учитывать при выборе программного обеспечения.

Рынок инструментов Data Mining

На рынке программного обеспечения Data Mining существует огромное разнообразие продуктов, относящихся к этой категории. И не растеряться в нем достаточно сложно. Для выбора продукта следует тщательно изучить задачи, поставленные перед Вами, и обозначить те результаты, которые необходимо получить.

Приведем цитату из Руководства по приобретению продуктов Data Mining (Enterprise Data Mining Buying Guide) компании Aberdeen Group: "Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров".

Существуют различные варианты решений по внедрению инструментов Data Mining, например:

покупка готового программного обеспечения Data Mining;покупка программного обеспечения Data Mining, адаптированного под конкретный бизнес;разработка Data Mining-продукта на заказ сторонней компанией;разработка Data Mining-продукта своими силами;различные комбинации вариантов, описанных выше, в том числе использование различных библиотек, компонентов и инструментальные наборы для разработчиков создания встроенных приложений Data Mining.

В этой лекции мы рассмотрим, что предлагает рынок готового программного обеспечения, в частности, оценим рынок в разрезе задач Data Mining.