ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ "ДАННЫХ" И ВАРИАНТНОЕ

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ "ДАННЫХ" И ВАРИАТИВНОЕ
МОДЕЛИРОВАНИЕ С СИСТЕМНЫХ ПОЗИЦИЙ

В.В. Губарев, О.О. Альсова, И.Н. Швайкова

Новосибирский государственный технический университет

Abstract – The basic terms, problems, methods and means of the intellectual analysis of signals, data, knowledge and variative modeling (simulation) are considered. Their interrelation, place and role among other parts of the computer analysis and data interpretation are investigated.

Введение. Постановка задачи

Характерной чертой последних тенденций компьютерного анализа и интерпретации данных и принятия решений является бурное развитие технологий и средств "добычи", "извлечения" знаний из данных, "интеллектуального анализа данных" (ИАД) [1-5]. Для начальной стадии развития этого направления, что естественно, характерно наличие неустоявшихся понятий данной предметной области. В настоящей работе предпринята попытка в определенной мере восполнить этот пробел.

2. Исходные определения и понятия

Прежде всего, определим понятие "информация". Не выясняя сути этого понятия (см.[6]), определим его как "совокупность содержательных сведений, которые могут быть выработаны, собраны, переданы, сохранены, переработаны, воспроизведены, использованы и т.п.".

Следующими важными понятиями являются термины: сигнал, данные и знания [7,8]. Их определения даны в [7] (см. также [8]). Сигнал - материальный носитель информации - физическое вещество, поле, процесс. Данные - рассматриваемый безотносительно к содержательному смыслу набор символов и представляемых ими записей. Знания - проверенные практикой результаты познания действительности, полезные сведения, которые могут многократно использоваться людьми. Акцентируем внимание на следующих аспектах приведенных определений.

Первое. Сходство сигналов и данных - они носители информации, а не сама информация. Их отличие сводится к тому, что информация, содержащаяся в сигнале, недоступна непосредственному восприятию субъектом. Данные же это, во-первых, совокупность содержащих информацию символов, во-вторых, совокупность, доступная для восприятия человеком. С точки зрения решения конкретной задачи всю информацию о некоем объекте можно условно считать состоящей из трех взаимосвязанных пересекающихся, нечетко разделимых частей: знания, протознания и информационный мусор. Знания в отличие от сигналов и данных это уже элемент информации, отличающийся логической полнотой, ограниченностью набора, и, в завершенном варианте, проверенностью практикой. Они (знания) включают в себя всю релевантную информацию [8], т.е. ту часть "полезной" для решения стоящей задачи информации, которая полностью устраняет (с точки зрения решаемой задачи!) неопределенность об объекте у получателя. Релевантная информация, в свою очередь, есть часть полезной (для получателя) информации - совокупности сведений, уменьшающих степень неопределенности о рассматриваемом объекте у ее получателя. В отличие от знаний полезная информация может быть логически не полной, противоречивой, не всегда достоверной и т.п. Знания же это полезная информация, представленная в виде, удобном для ее интеллектуального "переваривания". "Протознания" - это та часть информации, из которой могут быть получены новые знания. Остальная часть информации, - это информационный мусор - содержащиеся в "данных" сведения, которые не содержат полезной для пользователя информации и/или протознаний, но многократно увеличивают издержки пользователя. В этом смысле сигналы, данные и знания, как носители полезной информации и информационного мусора, будем в дальнейшем условно обозначать одним словом "данные". Следующие важные обобщающие собирательные понятия - это сбор, обработка, анализ, интерпретация и применение "данных". Они даны в [7].

Назовём "сбором "данных" действия с "данными", не приводящие к изменению семантики.

"Обработкой "данных" (сигналов, данных, знаний) будем называть действия, направленные на приведение интересующей исследователя, содержащейся в них информации к более удобному, компактному для анализа виду. Заметим, что при обработке "данных" содержащееся в них количество информации не может быть увеличено. Здесь происходит лишь преобразование информации к виду, более удобному для дальнейших операций.

Под "анализом "данных" будем понимать действия с ними, направленные на извлечение из них содержащейся информации об исследуемом объекте и на получение по имеющимся "данным" новых "данных", включающих в себя извлечённую из первых информацию об объекте.

Разновидностью анализа "данных" является "интеллектуальный анализ "данных". Под ним будем понимать анализ, связанный, во-первых, именно с неформальным извлечением знаний об исследуемом объекте, породившем "данные", непосредственно из этих "данных" (АИД-1), во-вторых, с получением новых знаний об объекте на базе извлечённых знаний, виртуальных^*) "данных" об объекте и естественного и/или искусственного интеллекта (ИАД-2), в-третьих, с поиском, выбором, синтезом методов и средств обработки и анализа "данных" с учётом поставленных целей исследования объекта (ИАД-3).

Интеллектуальный анализ "данных" связан с "добавлением информации" об объекте и/или методах и средствах анализа, с привнесением её "интеллектом". Под "интерпретацией результатов обработки и анализа "данных" будем понимать истолкование, разъяснение смысла, значения, их "перевод" на язык, в термины, образы, ..., доступные, понятные пользователю.

Под "применением результатов обработки и анализа "данных" понимаются действия, связанные с использованием их (результатов) для решения теоретических и практических задач, с реализацией технологии, с достижением поставленной пользователем конечной цели. Заметим, что любая формализация, структурирование, обработка "данных" привносит в них элементы знаний.

Следующие важные понятия это англоязычные термины "Data Mining", "Data-Based Knowledge", "Data Cleaning", "Data Warehouse", "Metadata".

Обычно под технологией "Data Mining" (DM) понимают поиск характеризующих объект скрытых зависимостей и взаимосвязей, проявляющихся через данные о нем (см., например, [4,5,10]). "Data-Based Knowledge" (DBK) - знания, основанные на "данных", т.е. знания, которые "извлекаются" (выводятся) с помощью интеллектуальных инструментальных средств анализа (Business Intelligence Tools - BIT) из хранилища "данных". "Data Cleaning" (DС) очистка "данных" - есть устранение из данных или корректировка той их части, которая содержит легко определяемый "информационный мусор": ошибки, противоречия, сбои, явные выбросы и т.п. Эта операция обычно используется перед загрузкой "данных" в "хранилище" (в DW). "Data Warehouse" (DW) - хранилище данных - это база, в которой собираются "данные" для последующего их анализа под конкретную решаемую задачу. "Metadata" - "данные", описывающие "данные" в DW.

Наконец, еще одним важным понятием является термин "управление знаниями". Под ним с подачи специалистов Anderson Consalting обычно понимают систематическое приобретение, синтез, обмен и использование (надо полагать, полезных?!) идей и опыта для достижения успеха в бизнесе или в управлении компанией. Иными словами, это процесс использования того, что известно людям, на новом уровне, с целью повышения потенциала компании через использование лучших решений, интеллектуального капитала или организационного обучения, а также через "капитализацию интеллекта, знаний".

3. Задачи, методы и средства ИАД

Ясно, что, в зависимости от приложений, наиболее значимым, первостепенным для каждого приложения является свой перечень задач и наиболее эффективные методы его решения.

Из наиболее часто решаемых методами ИАД задач в приложении к бизнесу являются: анализ значимых факторов, сокращение или увеличение их числа, выявление зависимостей, ассоциаций, исключений и закономерностей, в том числе для уменьшения размерности факторного пространства либо для виртуального (сбора, обработки) анализа "данных"; классификация; моделирование и прогноз; ранжирование; сегментация; профилирование наилучших достижений и т.п. (см. также [4-6]). К наиболее часто используемым методам, технологиям решения этих задач относятся методы деревьев решений, нейронных сетей, математической статистики, экспертного анализа и нечеткой логики, визуализации, генетических алгоритмов, эволюционного программирования, прецедентов, вариативного (вариантного) моделирования, а также интегрированные методы и технологии.

Из современного программного обеспечения, используемого как средства ИАД, отметим следующие.

ПО хранилищ данных [10]: Oracle (фирма Arbor), Platinum Technology (Business Objests), Praxis (Carleton), Prism (Cognos), Pyramid (Hewlett-Packard), Red Brick (IBM), SAS Institute (Information Bulders), Sequent (Informix), Software AG (Intellidex), Sybase (Microsoft), Tandem (MSP).

ПО для реализации технологий "Data Mining" [4,5]: Poly Analyst, Scenario, 4 Thought, MineSet.

Инструментарий (платформы и приложения) управления знаниями предлагается компаниями Glyphica (система Portalware), Autonomy (Portal-in-a-Box, Content Server и др.), Plumtree Software (Plumtree Server), Hyperknowledge (Hyperknowledge Builder), Intraspect Software (Intraspect Knowledge Server 2.0), Documentum (Documentum Enterprise Document Management System - EDMS), Open Text (Livelink) и др.

4. Вариантное (вариативное) моделирование

Вариативное (от англ. variety - разнообразие, разновидность), или вариантное моделирование (VM) (объекта) есть метод исследования, основанный на замене исследуемого объекта-оригинала набором разнообразных моделей его и на работе с ними. Таким образом, отличительная особенность вариативного моделирования от обычного (классического) заключается в том, что здесь обязательным является построение и совместное применение в процессе моделирования не менее двух разных моделей исследуемого (моделируемого) объекта. Это могут быть модели разных классов (см., например, [6]), одного класса, но разных типов, сложностей; использующие разные уровни описания объекта, разные средства и технологии их построения, интерпретации и применения и т.п. Как следует из приведенных определений, если DM-технологии есть технологии, реализующие ИАД-1, т.е. первый вариант ИАД, DBK - ИАД-2 (второй вариант), то VM-технологии реализуют третий вариант ИАД – ИАД-3.

Разновидностью вариативного моделирования является вектор-моделирование (ВМ) - такое VM, при котором строится, интерпретируется и применяется вектор-модель объекта (ВМО). Обобщая понятие вектор-характеристики (см., например, [11]) определим вектор-модель объекта как систему из минимального набора родственных по назначению, простых и близких по сложности моделей, отражающих в совокупности все многообразие существа (сути), закономерностей свойств и особенностей состояния, строения и функционирования (включая поведение) объекта-оригинала на требуемом (согласно ее назначению) уровне и обеспечивающих появление системного свойства эмергентности.

Обратим внимание на следующие отличительные особенности вектор-моделей. Во-первых, это не просто набор каких-либо моделей, а система моделей, т.е. взаимосвязанная совокупность, обладающая свойствами системы: цельности, целостности, целевости, эмергентности, структурированности, пороговости и т.п. Во-вторых, совокупность по-возможности как можно более простых моделей, обладающих примерной эквивалентностью по сложности. В-третьих, совокупность, удовлетворяющая требованиям полноты и минимальной избыточности с точки зрения ее назначения (цели, качества), условиям моделирования и окружающей среды.

Можно предложить несколько вариантов построения вектор-моделей для вариативного моделирования. Одним из перспективных может стать метод моделетеки [11].

В докладе подробно рассматриваются методы вариативного моделирования, способы формирования вектор-моделей и вопросы применения для этого моделетек.

5. Заключение

Приведенные в работе определения не претендуют на истину в последней инстанции. Они лишь призваны отразить взгляды авторов на соответствующие понятия, побудить к дискуссии и способствовать развитию исследований в данном направлении. Авторы будут признательны за любые конструктивные предложения и замечания по затронутым вопросам.

Примечание. Работа выполнена на стыке грантов Минобразования РФ "Информатика. Кибернетика" и "Университеты России - фундаментальные исследования".

Литература

Аджиев В. MiniSet-визуальный инструмент аналитика//Открытые системы, 1997.- № 3.- С. 73-77.

Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах. // Открытые системы, 1997. - №4. - С. 41-44.

Рузайкин Г.И. Орудие Data Mining: успех в анализе данных // Мир ПК, 1997. - № 1. - С. 102-103.

Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы, 1998. - № 1. - С. 30-35.

Шапот М., Рощупкина В. Интеллектуальный анализ данных и управление процессами // Открытые системы, 1998. - № 4,5.

Губарев В.В. Информатика в рисунках и таблицах (фрагменты системного путеводителя по концептуальным основам) - Новосибирск: Изд-во НГТУ, 1998. - 152 с.

Gubarev V.V. Experimental Data Analysis in the Systems Context // Proceedings The Third Russian-Korean International Symposium on Science and Technology. - Novosibirsk: NSTU, 1999. - Vol.1. - P.241-244; // Abstracts. - Vol.1. - P.190.

Головко М. Жизнь в мусорной куче, или нужны ли нам знания? // Computerwold Россия. - 17.08.1999. - С.41-43.

Загоруйко Н.Г. Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во ИМ СО РАН, 1999. - 270 с.

Туманов В. Data Warehouse: с чего начать? // PC WEEK, 1999. - № 29. - С. 15-16.

Губарев В.В. Вероятностные модели: Справочник. В 2-х ч. - Новосибирск: НЭТИ, 1992. - 422 с.

Site of Information Technologies
Designed by inftech@webservis.ru.