Сайт Информационных Технологий

БАЙЕСОВСКАЯ СТРАТЕГИЯ ПРОГНОЗИРОВАНИЯ РАЗНОТИПНОГО ВРЕМЕННОГО РЯДА НА ОСНОВЕ ВЫБОРКИ И ЭКСПЕРТНЫХ ВЫСКАЗЫВАНИЙ

В. М. Неделько

Институт математики СО РАН

Abstract. The task of prediction heterogeneous multidimensional time series is considered. The empirical information may be represented by both sample and statements of the experts. Using the statistical interpretation of the expert statements allowing to process unmatched or inconsistent statements, the method of constructing decision rules based on Byes approach is proposed. The case of structural variable space is also considered.

В работе рассматривается задача прогнозирования (продолжения) многомерного временного ряда (случайного процесса с дискретным временем) на основе информации о предыстории (выборки), а также экспертной информации, представленной набором несогласованных вероятностных высказываний нескольких экспертов.

При этом набор переменных, значения которых составляют временной ряд, предполагается разнотипным, то есть, переменные могут присутствовать одновременно непрерывные и дискретные, с упорядоченным и неупорядоченным множеством значений. Несогласованность экспертной информации предполагает, что высказывания могут быть в той или иной степени противоречивыми.

Для прогнозирования временного ряда строится решающая функция, отражающая вероятностные свойства изучаемого случайного процесса и представляющая собой оценку условного распределения в пространстве переменных прогнозируемого момента времени при заданной предыстории.

1. Постановка задачи.

Пусть разнотипный набор переменных; – множество допустимых значений переменной (все предполагаются ограниченными); – пространство значений, а – кортеж значений переменных.

Пусть зафиксировано N+1 отсчетов времени . Задача прогнозирования временного ряда состоит в том, чтобы по известным значениям переменных для N отсчетов (предыстории) оценить значения переменных для N+1 – прогнозируемого момента времени.

Индексы, соответствующие отсчетам времени, будем размещать слева. Таким образом, будет обозначать кортеж значений переменных для момента времени t.

Для удобства записи предыстории введем также обозначения и – составной кортеж значений переменных для предыстории. При этом , где k-я степень пространства D. Тогда будет пространством реализаций исследуемого случайного процесса.

Сформулируем задачу построения решающей функции.

Рассмотрим статистическую игру , где C – множество стратегий природы, – множество решений (в нашем случае ), – функция потерь, – пространство наблюдений.

Со стратегией природы свяжем – условное распределение в пространстве переменных для отсчета t при известных значениях переменных для отсчетов , где r=r(t,c) – длина существенной предыстории (влияющей на распределение для данного отсчета).

Будем предполагать, что вероятностные свойства процесса со временем не меняются, то есть – условное распределение не зависит от t.

Задачу прогнозирования временного ряда можно решать через восстановление стратегии c. При этом требуется указать алгоритм , который по полученной эмпирической информации строит – оценку стратегии природы.

В эмпирических данных могут одновременно присутствовать как реализация предыстории процесса, так и вероятностные высказывания экспертов, т. е. , где , а .

Здесь – множество всевозможных высказываний вида

, где , ,
=оценка вероятности попадания в при любом ; – оценка степени доверия высказыванию.

Для пояснения обозначений приведем пример экспертного высказывания:

Если средний уровень оз. Байкал за прошлый год меньше 1700 (мм)

и суммарный годовой сток рек Баргузин и Селенга за прошлый год больше 800

или средний уровень оз. Байкал за прошлый год меньше 1650

и средний уровень оз. Байкал за позапрошлый год больше 1800,

то средний уровень оз. Байкал в текущем году прогнозируется

от 1500 до 1700 с вероятностью 0,4,

от 1700 до 2000 с вероятностью 0,3,

свыше 2000 с вероятностью 0,2,

менее 1500 с вероятностью 0,1;

уверенность 0,8”.

Обозначив = “средний уровень оз. Байкал”, = “суммарный годовой сток рек Баргузин и Селенга”, можем записать данное высказывание в виде.

.

Здесь , ,

, ,

, ,

, где и – соответственно минимальное и максимальное значения переменной Xj.

При этом , , , ; . Несмотря на то, что все iD совпадают с D, мы для наглядности поставили индексы, соответствующие номеру отсчета предыстории.

2. Построение решающих функций.

Предлагаемый метод решения задачи состоит в получении апостериорной (при заданной эмпирической информации) вероятностной меры на стратегиях природы с использованием формулы Байеса:

,

где – функция правдоподобия для эмпирической информации, – априорное распределение на классе стратегий природы.

Предположив, что эксперты делают высказывания независимо от имеющейся у нас выборки, имеем .

Функция правдоподобия для выборочной реализации вычисляется как , где – значение на реализации v1 условной плотности вероятностной меры относительно лебеговой меры в пространстве D. При этом лебегова мера подмножества разнотипного пространства естественным образом определяется, как сумма мер его непрерывных компонент (подробнее см. [1]).

Предполагая, это эксперты делают высказывания независимо, получаем , где

.

Здесь – некоторая эвристически подобранная функция, мера несоответствия между высказыванием эксперта и стратегией природы (например, среднее по среднеквадратичное отклонение условной плотности от экспертных оценок), а мера информативности высказывания, – равномерное распределение в .

Для использования формулы Байеса осталось задать – априорную вероятностную меру на стратегиях природы.

Выберем подкласс – распределений с кусочно-постоянными плотностями , у которых области постоянства представляются в виде , где . При этом (см. [2]) для переменных с упорядоченным множеством значений должно быть интервалом (иметь вид , причем для непрерывных переменных границы могут как включаться, так и не включаться, так как подмножества меры ноль для нас несущественны).

Меру положим равной нулю.

Представим как , где – класс распределений с областями постоянства. Поскольку вид областей постоянства фиксирован, любое распределение из можно задать конечным числом параметров. Действительно, параметрами интервала являются его границы, а множество подмножеств значений дискретной переменной с неупорядоченным множеством значений можно параметризовать двоичными векторами длины, равной числу возможных значений этой переменной.

При этом – пространство значений данных параметров будет иметь конечную меру Лебега (по предположению, ограничены, значит, ограничены множества значений параметров). Тогда параметризует .

На множестве зададим вероятностную меру , где , а – равномерное распределение на .

После того, как апостериорное распределение на стратегиях природы получено, в качестве решения можно взять усредненную по данному распределению стратегию .

3. Структурированное пространство.

Предложенный метод построения решающих функций может быть распространен для случая структурированного пространства переменных [3], которое является обобщением разнотипного пространства, образованного декартовым произведением областей допустимых значений переменных на случай, когда объект исследования имеет сложную иерархическую структуру и когда диапазон значений некоторых переменных зависит от значений, принятых переменными верхнего уровня иерархии.

Определение. Структурированное пространство переменных есть

либо интервал значений переменной с упорядоченным множеством значений,

либо подмножество значений дискретной переменной с неупорядоченным множеством значений,

либо декартово произведение структурированных пространств,

либо объединение непересекающихся структурированных пространств.

Данное определение подразумевает, что операции объединения и декартова произведения используются в конечном числе.

Пусть – структурированное пространство и – множество всех подмножеств , которые сами являются структурированными пространствами в смысле данного выше определения.

Пусть -алгебра, порожденная . Лебегову меру множества определим следующими стандартными правилами:

На мера распространяется в соответствии с аксиомами меры.

Класс измеримых подмножеств определим стандартным способом, а именно, будем считать измеримым тогда и только тогда, когда такие, что и , и при этом . Тогда .

Теперь изложенный метод построения решающей функции для прогнозирования временного ряда может быть перенесен на случай структурированного пространства переменных.

Действительно, для можно задать вероятностное пространство, задав плотность вероятностной меры относительно лебеговой. Кроме того, любое множество из определяется конечным числом параметров, что позволяет использовать предложенный в работе метод задания априорной меры .

Предложенный метод построения решающей функции прогнозирования временного ряда позволяет использовать разнородную эмпирическую информацию, представленную как обучающей реализацией временного ряда, так и высказываниями нескольких экспертов. При этом метод позволяет использовать в том числе противоречивую, информацию, автоматически согласовывая мнения различных экспертов.

Работа выполнена при поддержке РФФИ, проект № 980100673.

Литература

  1. Лбов Г. С., Неделько В. М. "Байесовский подход к решению задачи прогнозирования на основе информации экспертов и таблицы данных". // Доклады РАН. Том 357. № 1. 1997. С. 29–32.
  2. Lbov G. S., Berikov V. B. Recognition of a Dinamic Object and Prediction of Quantitative Characteristics in the Class of Logical Functions. // Pattern Recognition and Image Analysis 1997, V. 7(4), pp. 407-413.
  3. Неделько В. М. "Байесовская стратегия построения решающей функции в структурированном пространстве". // V Междун. конф. "Компьют. ан. данных и моделир.". Сб. статей. Ч. 4. Минск, 1998. С. 81–85.

Site of Information Technologies
Designed by  inftech@webservis.ru.