Сайт Информационных Технологий

Каталог >> Базы Данных >> ОО технологии >> Представление знаний в объектно-ориентированной базе

ПРЕДСТАВЛЕНИЕ ЗНАНИЙ В ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ БАЗЕ

И.А.Семёнов

В статье рассмотрены принципы представления знаний об объектах и отношений между ними. Исследованы принципы извлечения и структурирования знаний для автоматизированной разработки баз знаний интеллектуальных систем.


Преобразование знаний в объект обработки на компьютере – это задача информационной технологии инженерии знаний. На практике накапливать и применять знания может пока только человек. Для решения этой задачи необходимо проанализировать знания и особенности их обработки человеком и компьютером, а также предложить их машинное представление. Но перед этим необходимо дать строгое определение, что такое знания. Цель всех этих задач – обеспечить возможность использования информации в компьютере на более высоком уровне, чем это было до сих пор. В современной вычислительной технике формат информации, с которой оперирует компьютер, имеет достаточно низкий уровень, являясь лишь малой частью разнообразной информации, с которой мы имеем дело в реальном мире. И даже такую информацию в отдельных случаях можно обрабатывать лишь на специализированных компьютерах. Это означает, что возможности современных компьютеров ограничены и они могут обрабатывать лишь небольшую часть информации, которая нам необходима. Для того чтобы компьютеры могли обрабатывать информацию на более высоком уровне, необходимо поднять до соответствующего уровня форму представления информации.

Решение проблем накопления в памяти информации, имеющей форму знаний, требует разработки еще одной техники, полностью отличной от техники использования знаний, но которая тесно связана с последней в том смысле, что они взаимно дополняют друг друга и образуют в совокупности технику обработки знаний. Это проблема приобретения знаний. Именно так можно назвать функцию извлечения информации из окружающей среды и их накопление в памяти с целью использования.

Инженер по знаниям (аналитик) является главной фигурой при извлечении знаний из источника знаний (эксперта, документации и т.д.). Результат его работы отражает структуру представлений и рассуждений специалистов. Знания можно извлекать и другими способами, но указанная стратегия является наиболее распространенной.

Объективные трудности извлечения знаний обусловлены тем, что[1]

  1. знания эксперта многослойны, часто из цепочки рассуждений со временем выпадают звенья, которые непросто восстановить;
  2. часть знаний и умений хранится в памяти в невербальной форме и связана сложной логико-ассоциативной сетью;
  3. большинству экспертов не свойственна аналитичность и способность к ясному изложению.

Исходя из этого видно, что извлечение знаний это непростой процесс. И человек-аналитик, на котором лежит вся тяжесть интервьюирования источника знаний, должен обладать специальными знаниями по системному анализу, формальной логике, когнитивному моделированию, а главное, методологии извлечения знаний. Инженеры по знаниям, при обработке знаний, придерживаются следующего алгоритма работы:

Структура знаний отражается в модели данных. От модели зависит многое. Она должна отражать структуры различных прикладных сфер. Модель должна быть адаптирована под ПО. Модель определяется совокупностью описаний элементов (сущностей), из которых она построена, из их отношений, а также совокупностью описаний свойств и поведения этих элементов.

Столь сложную задачу по созданию вычислительной системы, обеспечивающей интеллектуальную поддержку решений проблем отражения в компьютере ПО с использованием моделей, под силу только универсальным Case-средствам. Универсальность Case-средства заключается в том, что оно должно обладать возможностью определять сами различные модели в широкой прикладной области.

Модель данных содержит в себе описание структур объектов и их отношений. Понятие структуры в свою очередь, входит неразрывной частью в существо внешнего их представления, поэтому естественное стремление к использованию структуры данных, непосредственно соответствующей структуре объекта, имеет важное значение, как с позиции преобразования входных данных, так и с позиции эффективности обработки.

Нужно отметить, что наличие только одного статического представления моделей для решения проблем недостаточно. Система должна поддерживать динамические процессы последовательного приближения к поставленной пользователем цели. Это довольно сложное требование, поскольку суть его не только в проблеме языка представления знаний (ЯПЗ), но и в проблеме глубокого понимания сущности проектирования систем.

На систему возлагается еще одно важное требование, которое она должна выполнять сама, но в сложных ситуациях с помощью человека, управление непротиворечивостью моделей, сконструированных внутри нее.

Под термином предметная область понимается часть реального мира, которая описывается или моделируется с помощью баз данных. Это может быть целиком институт, некоторая его часть, факультет, кафедра и т.д. и т.п.. ПО состоит из информационных объектов, совокупность которых образует объектное ядро. Информационный объект – идентифицируемый объект реального мира, некоторое понятие или процесс, относящиеся к предметной области, о которой хранятся описательные данные. В роли информационных объектов могут выступать люди, машины, книги и т.д. Объект не обязательно имеет материальную природу, хотя можно часто встретить утверждения о том, что быть объектом – значит быть дискретным (в качестве “не объектов”, видимо, предполагают – время, мысли, смысл, пространство и т.п.), хотя существуют информационные среды, в которых хранятся сведения об этих категориях. Сам термин объект является первичным, неопределяемым понятием.

При структурировании знаний важно понимать природу объектов. Когда один объект или группа из нескольких объектов представляются другими объектами, которые концептуально от них отличаются, все эти объекты в совокупности, как правило, образуют иерархическую структуру. В реальном мире сложные объекты почти без исключения реализуются в виде конструкций, за элементы которой принимаются более простые объекты. Следовательно, понятие иерархии является неотъемлемым для представления структурных отношений в объектах. Во многих случаях это понятие является многоуровневым в том смысле, что по существу структурные элементы объекта сами по себе представляют конструкции, состоящие из более простых сущностей. Внутри компьютера такое понятие иерархии описывается иерархической структурой данных. Объекты, находящиеся в иерархических отношениях внутри реального мира, поставлены в соответствие структуре данных. Исходя из этого, сначала задается систематика в структуре данных. Крайне важно сохранение семантики, а система обработки знаний должна обладать возможностями управления этими семантическими отношениями.

ПО может быть описана множеством объектов и связей между ними. Каждый объект обладает набором определенных свойств, и для него могут быть указаны значения этих свойств. Естественно, реальный объект не сводится к простой совокупности свойств, определяемых системой. Однако, чтобы опознать объект, выделить его из предметной области, а затем представить в виде данных, достаточно значений фиксированных свойств. Если в описании объекта зафиксировать набор свойств и менять значения этих свойств, выбирая их из некоторого множества, допустимого семантикой данной предметной области, то получится множество объектов. Объекты этого множества объектов будут сходными между собой, потому что будут описываться одним и только одним набором свойств. В то же время каждый объект будет отличаться от другого значением одного или нескольких из свойств набора. Подобная статическая структура объектов является унифицированной, относительно конкретного множества объектов. Единица такого множества представляет объект внешнего мира только определенным набором свойств. В действительности же объект может обладать специфическими свойствами, отличными от возможных специфических свойств других объектов, если такие существуют. И было бы естественно эти свойства также отображать в динамической таблице информационной системы. В результате мы получим множество объектов, определяемых множеством известных свойств, и при этом будем иметь дополнительные свойства, присущие конкретному объекту.

Связь между какими-то объектами можно понимать как высказывание, подстановка названий объектов в которое делает его истинным. Иными словами, связь – это область истинности предиката или, что тоже самое, отношение между объектами.

Объекты могут быть атомарными (простыми) и молекулярными (сложными). Атомарными называются объекты, которые для данной предметной области считаются бесструктурными. Атомарные объекты представляются совокупностью характеризующих их свойств. Внутренняя структура атомарного объекта не раскрывается. Молекулярные объекты имеют определенный состав и структуру.

Исходя их сказанного ясно, что методология структурирования баз знаний может иметь объектную направленность, связанную с выделением объектов. Практика показала, что другие методологии не смогли себя проявить, множественность средств и терминов в них объясняется тем, что каждая ПО вводит собственные обозначения для лучшего отражения своей специфики. И поскольку инженерия знаний имеет дело с широким классом ПО, встает задача разработки достаточно универсального языка структурирования знаний.

Сейчас объектно-ориентированный (ОО) подход при проектировании баз знаний слабо развит. Свои корни он берет от объектно-ориентированного программирования (ООП), основанного на понятиях объекта, класса, наследования, инкапсуляции и полиморфизма. Развитие ООП привело к разработке первых объектно-ориентированных СУБД (ООСУБД), которые позволяют обрабатывать сложные объекты, проектировать системы высокой степени сложности, содержат наследование и другие свойства.

Выделим те аспекты, которых должна придерживаться ОО Case-система представления знаний по управлению объектами. ЯПЗ, являющийся неотъемлемой частью этой системы должен уметь работать со структурами. Все объекты ПО отображаются в базу знаний, в структуры определенного формата, в которых хранится вся семантика объектов и их семантические связи. Это условие придает объектам в системе свойство самодостаточности, когда вся информация об их сущности хранится в них же самих. Это так же дает независимость ЯПЗ, он, по сути, является интерпретатором. Смысл сказанного заключается в том, что реализуется принцип – данные управляют программами, а не наоборот. Модель данных такой системы, основанной на структурах, рассматривается как динамическая структура данных (ДСД), не привязанная к конкретной парадигме и способная видоизменяться (реструктурироваться) с изменениями ПО. Она управляема как внешними, так и внутренними потоками данных, путём их обмена между собой. Семантика ЯПЗ зависит от особенностей ПО и обладает свойством полиморфизма, т.е. одни и те же функции и операторы языка в разных задачах могут иметь свои особенности.

Из сказанного следует, что система управления динамическими информационными объектами должна обеспечить:

  1. “Информационную горизонталь”. Объекты БД в этом случае не статичны, а динамичны. Класс (таблица) имеет определённое количество понятий (свойств) общих для всех объектов, и каждый объект может иметь определённый набор дополнительных атрибутов, принадлежащих только ему и пополняемых по мере необходимости.
  2. “Информационную” и “процедурную вертикаль”. Модели объектов способны менять свои структуры, вслед за изменениями ПО.
  3. Универсальный броузер, способный отображать не только данные БД в виде реляционных таблиц, деревьев или их совокупности, но и способный показывать пользователю ДСД (модель) на данный момент времени.

В случае целенаправленной работы со структурами данных, база становится интеллектуальной (ИБ данных и знания или просто ИБ) по определению интеллектуальной системы [4].

Подводя итог, приведем требования к Case-системе представления знаний при описании моделей. Это наличие возможностей

Литература

  1. С. Осуга, “Обработка знаний”, М. “Мир”, 1989.
  2. С. Осуга, “Приобретение знаний”, М. “Мир”, 1990.
  3. Дж. Хаббард, Автоматизированное проектирование баз данных. М. “Мир”, 1984.
  4. В.М. Лачинов, А.О. Поляков, Собственные теории информатики. Избранные лекции по обоснованию информодинамики. СПб: Издательство СПбГТУ, 1998.
  5. Г. Хансен., Д. Хансен. Базы данных. Разработка и управление. Москва, ЗАО “Издательство БИНОМ”, 1999.

InfTech


Site of Information Technologies
Designed by  inftech@webservis.ru.