Data Mining

         

Человеческие факторы. Роли в Data Mining


Человеческий фактор при внедрении Data Mining - это наличие и квалификационное соответствие специалистов, готовых работать с Data Mining.

Специалисты компании, вовлеченные в процесс Data Mining, исполняют одну из ролей, которые показаны на рис. 21.1: специалист предметной области, администратор баз данных, специалист по добыче данных.


Рис. 21.1.  Роли в Data Mining

Роли между специалистами распределены следующим образом.

Специалист предметной области (Domain experts) - специалист, имеющий знания о окружении бизнеса, процессах, заказчиках, клиентах, потребителях, конкурентах, т.е. о предметной области.

Знания о предметной области включают факты, которые к данной области относятся, закономерности, характерные для нее, гипотезы о возможных связях между явлениями, процессами и фактами в ней, процедуры для решения типовых задач. Экспертные знания - это те знания, которыми располагает специалист в некоторой предметной области.

Администратор баз данных (Database administrator) - специалист, имеющий знания о том, где и каким образом хранятся данные, как получить к ним доступ и как связать между собой эти данные.

Администратор базы данных отвечает за выработку требований к базе данных, за ее проектирование, реализацию, эффективное использование и сопровождение.

Другими обязанностями администратора баз данных могут быть: определение статуса информации и статуса пользователей; модификация данных; обеспечение целостности данных; загрузка данных и ведение БД; защита данных; обеспечение восстановления баз данных; сбор и статистическая обработка обращений к БД; анализ эффективности функционирования базы данных.

Специалист по добыче данных (Mining specialists) - специалист по анализу данных, который имеет, как минимум, основы статистических знаний.

Этот специалист должен быть способен применять технологии Data Mining и интерпретировать полученные результаты. Он должен уметь устанавливать связи со специалистом по предметной области для управления полученными результатами и с администратором БД для получения доступа к данным в запрос на свои действия.


Специалист по добыче данных ответственен за получение необходимых для Data Mining сведений из различных источников, а также за получение информации от специалистов в данной предметной области. Специалист по добыче данных должен быть также своего рода постановщиком задач. Он должен уметь получать необходимую информацию и входные данные для Data Mining-системы у специалистов по предметной области, задавать вопросы с целью уточнения сведений и т.д.

Первые две роли из описанных выше в том или ином виде присутствуют в любой компании. Третья роль в первое время внедрения Data Mining может исполняться консультантом другой компании. После приобретения соответствующих знаний, это место может занять человек из Вашей компании, например - маркетинговый аналитик.

Одной из основных трудностей при выборе специалистов либо внутри Вашей организации, либо сторонних консультантов является разнообразие областей, которые должны быть объединены в одном процессе. Процесс Data Mining требует наличия связей между бизнесом, анализом и информационными технологиями, чтобы обеспечить непрерывный двунаправленный поток информации (данные - информация - решения), который был рассмотрен в одной из начальных лекций курса.

Три роли, рассмотренные выше, являются основными, и без них процесс Data Mining не может быть осуществлен. Часто в процесс также вовлечены другие специалисты по информационным технологиям и менеджеры проектов.

Среди них могут быть:

менеджер проектов (Project Manager);специалист по IT Архитектуре (IT Architect);специалист по Архитектуре Решений (Solution Architect);специалист по Архитектуре Данных (Data Architect);специалист по Моделированию данных (Data Modeler);эксперт Data Mining (Data Mining Expert);деловой Аналитик (Business Analyst).Каждая из этих ролей может быть отведена специалисту внутри организации либо стороннему специалисту. Процесс найма третьих лиц, т.е. сторонних специалистов для выполнения определенных работ, называют аутсорсингом (outsourcing). Воспользовавшись услугами приглашенных специалистов, компании могут добиться существенного уменьшения затрат на оплату труда.


О других преимуществах аутсорсинга для Data Mining будет рассказано в следующем разделе курса.

Роли Data Mining, в зависимости от конечной цели работ, распределяются следующим образом:

исследователи (написание исследовательских докладов и статей);практикующие аналитики (решение реальных и практических задач анализа данных);разработчики программного обеспечения (написание Data Mining- программного обеспечения);студенты (в настоящее время обучающиеся в учебных заведениях);бизнес-аналитики (главным образом, оценивающие результаты использования data mining);менеджеры (управляют одним или большим количеством проектов);другие.Согласно последним опросам на KDnuggets, наибольшее число из голосующих - это практикующие аналитики, использующие технологию Data Mining для анализа реальных данных (34%), и исследователи (19%), далее идут студенты, бизнес-аналитики, разработчики программного обеспечения и менеджеры.

Теперь мы рассмотрим процесс Data Mining в разрезе работ, выполняемых описанными выше специалистами, коснемся распределения их обязанностей, укажем, где эти работы пересекаются в процессе достижения бизнес-цели.

Напомним, что процесс Data Mining практически никогда не является линейным, в большинстве случаев это итеративный циклический процесс. Именно итеративность гарантируют процессу Data Mining такой результат, который будет адаптирован под решение конкретной задачи.

Процесс Data Mining, с точки зрения человеческого фактора, является постоянным взаимодействием трех основных специалистов.

Взаимодействие специалиста по добыче данных и специалиста по предметной области осуществляется в двух точках соприкосновения (не забываем при этом, что Data Mining - итеративный процесс).

Первая точка - анализ предметной области, где определяются задачи и требования к будущей системе. Специалист по добыче данных должен вникнуть в предметную область, изучить ее базовые термины, другими словами, он должен провести анализ предметной области. На основании знаний методов и инструментов Data Mining специалист по добыче данных предлагает вариант решения проблемы.



Второй точкой соприкосновения указанных выше специалистов является интерпретация результатов, полученных в результате Data Mining.

Взаимодействие специалиста по добыче данных и администратора баз данных осуществляется на этапах анализа требований к данным и сбора данных. Непосредственно подготовка данных для Data Mining может осуществляться специалистом по добыче данных самостоятельно либо во взаимодействии с администратором баз данных.

Взаимодействие трех специалистов осуществляется на завершающих этапах Data Mining при проверке работоспособности системы, например, при сравнении прогнозных результатов с реальными. При необходимости процесс Data Mining возвращается на один из предыдущих этапов.

От того, насколько консолидированы будут действия специалистов из разных областей, зависит длительность проекта и качество полученных результатов.

Если в проекте Data Mining присутствует роль руководителя, на него возлагается координация и контроль работ, проводимых описанными выше специалистами.


CRISP-DM методология


Мы рассмотрели процесс Data Mining с двух сторон: как последовательность этапов и как последовательность работ, выполняемых исполнителями ролей Data Mining.

Существует еще одна сторона - это стандарты, описывающие методологию Data Mining. Последние рассматривают организацию процесса Data Mining и разработку Data Mining-систем.

CRISP-DM [100] (The Cross Industrie Standard Process for Data Mining - Стандартный межотраслевой процесс Data Mining) является наиболее популярной и распространенной методологией. Членами консорциума CRISP-DM являются NCR, SPSS и DаimlerChrysler.

В соответствии со стандартом CRISP, Data Mining является непрерывным процессом со многими циклами и обратными связями.

Data Mining по стандарту CRISP-DM включает следующие фазы:

Осмысление бизнеса (Business understanding).Осмысление данных (Data understanding).Подготовка данных (Data preparation).Моделирование (Modeling).Оценка результатов (Evaluation).Внедрение (Deployment).

К этому набору фаз иногда добавляют седьмой шаг - Контроль, он заканчивает круг. Фазы Data Mining по стандарту CRISP-DM изображены на рис. 21.2.


Рис. 21.2.  Фазы, рекомендуемые моделью CRISP-DM

При помощи методологии CRISP-DM Data Mining превращается в бизнес-процесс, в ходе которого технология Data Mining фокусируется на решении конкретных проблем бизнеса. Методология CRISP-DM, которая разработана экспертами в индустрии Data Mining, представляет собой пошаговое руководство, где определены задачи и цели для каждого этапа процесса Data Mining.

Методология CRISP-DM описывается в терминах иерархического моделирования процесса [101], который состоит из набора задач, описанных четырьмя уровнями обобщения (от общих к специфическим): фазы, общие задачи, специализированные задачи и запросы.

На верхнем уровне процесс Data Mining организовывается в определенное количество фаз, на втором уровне каждая фаза разделяется на несколько общих задач. Задачи второго уровня называются общими, потому что они являются обозначением (планированием) достаточно широких задач, которые охватывают все возможные Data Mining-ситуации. Третий уровень является уровнем специализации задачи, т.е. тем местом, где действия общих задач переносятся на конкретные специфические ситуации. Четвертый уровень является отчетом по действиям, решениям и результатам фактического использования Data Mining.

CRISP-DM - это не единственный стандарт, описывающий методологию Data Mining. Помимо него, можно применять такие известные методологии, являющиеся мировыми стандартами, как Two Crows, SEMMA, а также методологии организации или свои собственные.



Другие стандарты Data Mining


Как уже отмечалось, описанные стандарты являются методологиями Data Mining, т.е. рассматривают организацию процесса и разработку систем Data Mining. Помимо этой группы, в последние годы появился ряд стандартов, цель которых - согласовать достижения в Data Mining, упростить управление моделированием процессов и дальнейшее использование созданных моделей. Эти стандарты условно можно поделить на две категории:

Стандарты, относящиеся к выработке единого соглашения по хранению и передаче моделей Data Mining.Стандарты, относящиеся к унификации интерфейсов.

Организационные Факторы


Когда в организации принято решение использовать Data Mining, первый вопрос, который возникает: "С чего начать?" После того как в организации принято решение использовать технологию Data Mining, необходимо потратить определенное время и усилия, чтобы подготовиться к этому. Необходимо создать определенную организационную окружающую среду.

Поток данных (flow of Data) в организации должен быть приспособлен к Data Mining [17], т.е. сотрудники должны быть заинтересованы в открытом сотрудничестве по обмену информацией. Особенно важно это во взаимодействии между бизнес-отделами и техническими отделами.

Рассмотрим два аспекта, касающихся организационных факторов процесса Data Mining: организационную культуру и деловую окружающую среду.

Чтобы сотрудники могли работать на максимально высоком уровне, организация должна обеспечить свободный поток нужной информации к тому сотруднику, которому она требуется, в четкие сроки и в правильной форме; только тогда возможно будет выработать своевременное оптимальное решение. Лидирующие компании обеспечивают это путем инвестиций в свою информационную инфраструктуру, которая поддерживает бизнес-процессы предприятия [99].

Организационная культура подразумевает активное открытое сотрудничество по обмену информацией между отделами компании и ее сотрудниками.

Это особенно важно во взаимодействии между бизнес-отделами и техническими отделами. Люди должны желать принимать новую информацию и, на основе этого, изменять условия и методы своего труда. Если сотрудники скрывают или защищают свои данные и не желают активно участвовать в обмене информацией и создании новой информации, организация, скорее всего, будет нуждаться во внутреннем или внешнем консультировании для изменения этих фактов. Это всегда непростая задача, но это существенный фактор для достижения успехов при внедрении Data Mining.

Деловая Окружающая среда. Направлять Ваши действия по Data Mining должен бизнес. Руководители высшего звена должны быть заинтересованы во вложении средств в Data Mining, поскольку этот процесс всегда требует значительных затрат. Необходимо четкое понимание проблемы или задачи, которую нужно решить. В организации должна присутствовать готовность открыть доступ к данным и показателям, а также к другим аспектам деятельности.

Интеграция Data Mining в бизнес всегда означает интеграцию соответствующего инструмента в деловую среду организации.





Организационные и человеческие факторы в Data Mining. Стандарты Data Mining


Бизнес конкретной фирмы не является изолированным, он - часть рынка. Успешность бизнеса зависит не столько от того, как работает форма, сколько от того, как она работает в сравнении с подобными фирмами рынка. Существует множество различий, нас интересует одно из них - программное обеспечение или инструменты, которые используются для управления бизнесом и принятия решений.

Первый вопрос, который в связи с этим замечанием можно задать менеджеру: "Устраивает ли Вас то программное обеспечение, которое Вы используете для получения новых знаний о делах фирмы?". Если ответ "да", то, возможно, Вы не нуждаетесь в дополнительных инструментах. Но, возможно, у Вас есть вопросы, на которые Вы бы хотели получить ответы, например, почему некоторые Ваши клиенты перешли к конкурирующим фирмам. Ответ на этот и другие вопросы может дать инструмент Data Mining.

В предыдущих лекциях нами был рассмотрен процесс Data Mining с точки зрения этапов, которые должны быть пройдены для получения определенного знания и в итоге - для принятия наиболее верного решения.

Процесс Data Mining можно рассматривать с другой стороны, а именно, с точки зрения организационных и человеческих факторов, которые играют далеко не последнюю роль при внедрении проекта Data Mining.



SEMMA методология


SEMMA методология реализована в среде SAS Data Mining Solution (SAS) [102]. Ее аббревиатура образована от слов Sample ("Отбор данных", т.е. создание выборки), Explore ("Исследование отношений в данных"), Modify ("Модификация данных"), Model ("Моделирование взаимозависимостей"), Assess ("Оценка полученных моделей и результатов"). Методология разработки проекта Data Mining в соответствии с методологией SEMMA изображена на рис. 21.3.


Рис. 21.3.  Методология разработки проекта Data Mining в соответствии с методологией SEMMA

Подход SEMMA подразумевает, что все процессы выполняются в рамках гибкой оболочки, поддерживающей выполнение всех необходимых работ по обработке и анализу данных. Подход SEMMA сочетает структурированность процесса и логическую организацию инструментальных средств, поддерживающих выполнение каждого из шагов. Благодаря диаграммам процессов обработки данных, подход SEMMA упрощает применение методов статистического исследования и визуализации, позволяет выбирать и преобразовывать наиболее значимые переменные, создавать модели с этими переменными, чтобы предсказать результаты, подтвердить точность модели и подготовить модель к развертыванию.

Эта методология не навязывает каких-либо жестких правил. В результате использования методологии SEMMA разработчик может располагать научными методами построения концепции проекта, его реализации, а также оценки результатов проектирования.

По результатам последних опросов KDnuggets (2004 г.), 42% опрошенных лиц использует методологию CRISP-DM, 10% - методологию SEMMA, 6% - собственную методологию организации, 28% - свою собственную методологию, другими методологиями пользуется 6% опрошенных. Не пользуются никакой методологией 7% опрошенных.



Стандарт PMML


В предыдущих лекциях мы уже упоминали о стандарте PMML (Predictive Modeling mark-up Language) - языке описания предикторных (или прогнозных) моделей или языке разметки для прогнозного моделирования.

PMML относится к группе стандартов по хранению и передаче моделей Data Mining.

Разработка и внедрение этого стандарта ведется IT-консорциумом DMG (Data Mining Group). DMG [103] - группа, в которую входят все лидирующие компании, разрабатывающие программное обеспечение в области анализа данных.

Основа этого стандарта - язык XML. Примером другого стандарта, также основанного на языке XML, является стандарт обмена статистическими данными и метаданными. Стандарт PMML используется для описания моделей Data Mining и статистических моделей.

Основная цель стандарта PMML - обеспечение возможности обмена моделями данных между программным обеспечением разных разработчиков.

При помощи стандарта PMML-совместимые приложения могут легко обмениваться моделями данных с другими PMML-инструментами. Таким образом, модель, созданная в одном программном продукте, может использоваться для прогнозного моделирования в другом.

По словам сторонников PMML, этот стандарт "делает Data Mining более демократичным", позволяет все большому количеству пользователей пользоваться продуктами Data Mining. Это достигается за счет возможности использования ранее созданных моделей данных. PMML позволяет использовать модели данных сколь угодно часто и существенно помогает в практической работе с ними.

Стандарт PMML включает:

описание анализируемых данных (структура и типы данных);описание схемы анализа (используемые поля данных);описание трансформаций данных (например, преобразования типов данных);описание статистик, прогнозируемых полей и самих прогнозных моделей.

Стандарт PMML обеспечивает поддержку наиболее распространенных прогнозных моделей, созданных при помощи алгоритмов и методов анализа данных, в частности - нейронных сетей, деревьев решений, алгоритмов ассоциативных правил, кластерного анализа, логических правил и др.



Стандарты, относящиеся к унификации интерфейсов


С помощью стандартов этой группы любое приложение может получить доступ к функциональности Data Mining. Здесь можно выделить стандарты, направленные на стандартизацию интерфейсов для объектных языков программирования, и стандарты, направленные на разработку надстройки над языком SQL.

К стандартам, направленным на стандартизацию интерфейсов для объектных языков программирования, можно отнести: CWM Data Mining, JDM.

В 2000 году организации MDC (MetaData Coalition, www.mdcinfo.com) и OMG (Object Management Group, www.omg.org), разрабатывающие два конкурирующих стандарта - в области интеллектуальных технологий для бизнеса - OIM (Open Information Model) и CWM (Common Warehouse Metamodel) - общую метамодель хранилищ данных решили объединить свои достижения и усилия под управлением OMG. Стандарт CWM включает описание базовых элементов объектной модели, реляционных отношений, языка XML, структуры семантики предметной области, архитектуры OLAP, добычи данных, технологии перегрузки данных и некоторых расширений.

JDM (The Java Data Mining standard - Java Specification Request 73, JSR-73). Стандарт, разработанный группой JSR 73, Java Data Mining API (JDM) - это первая попытка создать стандартный Java API (программный интерфейс приложения) для получения доступа к инструментам Data Mining из Java-приложений.

Вторая группа стандартов направлена на разработку надстройки над языком SQL, которая позволяла бы обращаться к инструментарию Data Mining, встроенному непосредственно в реляционную базу данных. К этой группе можно отнести следующие стандарты: SQL/MM, OLE DB for Data Mining.

Стандарт SQL/MM представляет собой набор определенных пользователем SQL процедур для возможностей вычислений и использований моделей Data Mining.

The OLE DB for Data Mining standard of Microsoft. Этот стандарт позволяет, подобно SQL/MM, применять методы Data Mining в структуре реляционных баз данных. Этот стандарт является расширением OLE DB.

Стандарты, имеющие прямое или опосредованное отношение к Data Mining, можно объединить в группы:

стандарты, базирующиеся на услугах Data Mining (услуги создания модели управления, скоринговые услуги, услуги анализа данных, услуги исследования данных, статистические услуги моделирования);стандарты web-службы (SOAP/XML, WSRF, и т.д), Grid-Услуги (OGSA, OGSA/DAI, и т.д.), Семантические Стандарты Web (RDF, OWL, и т.д.);стандарты, которые должны появиться в ближайшее время: стандарты для технологического процесса, стандарты для преобразований данных, стандарты для оперативного (real time) Data Mining, стандарты для сетей данных (data webs).

Как мы видим, стандарты Data Mining развиваются, появляются также новые, имеющие как прямое, так и опосредованное отношение к этой технологии. Это свидетельствует о достаточной "зрелости" Data Mining и вступлении ее в новый этап развития.