Научная литература
booksshare.net -> Добавить материал -> Математика -> Скороход A.B. -> "Вероятность: основные понятия, структура, методы." -> 89

Вероятность: основные понятия, структура, методы. - Скороход A.B.

Скороход A.B. Вероятность: основные понятия, структура, методы. — , 1989. — 279 c.
Скачать (прямая ссылка): skorohod.djvu
Предыдущая << 1 .. 83 84 85 86 87 88 < 89 > 90 91 92 93 94 95 .. 110 >> Следующая

= ^/Гл(лг0, ..., х„)рп(йхп1 х0, . . ., 1Хп_\)'

Тогда по индукции устанавливаем:

?„(л0, х„)<^«К, -г«) + (Л'' —«+1)б,

?"„ (л;,, ..., «„_,) < Fn (л:0, ..., «„_,) + (ЛГ — я) б.

Поэтому стоимость выбранного управления удовлетворяет не-
равенству

\Тй (х0) р0 (с1х0) <?'лг + (А/ + 1) б.
Выбирая 6=6/(^+1), получим доказательство утверждения 3)

§ 2. Управляемые цепи Маркова

Как и в предыдущем параграфе, рассматриваем пространст-
ва (X, 92)—фазовое пространство процесса и (£/,'«?)—фазо-
вЬе пространство управления. Управляемый процесс называется
марковским (управляемой цепью Маркова), если функции
рп(Л/х0, .. ., хп-и и0,. . . , ип-\) зависят лишь от хп-\ и ип-\.
Управляемая цепь Маркова задается набором своих вероятно-
стей перехода {рп(А/хп-и ип-\), п = 1, 2, ...}, в отличие от об-
щего случая начальное распределение не фиксируется (это
обычный подход при изучении марковских процессов). Оказы-
вается, специальный вид условных вероятностей, определяющих
управляемый процесс, не упрощает цепочки равенств (2), с
помощью которых находятся цена управления и оптимальное

(или е-оптимальные) управления. Однако в предположении,
что стоимость управления представляет собой сумму стоимо-
стей управлений на каждом шаге, которые в свою очередь за-
висят лишь от исходного и конечного состояний процесса и
выбранного управления, задача отыскания оптимального (е-оп-
тимального) управления допускает более эффективное решение.

2.1. Аддитивная стоимость управления. Уравнение Бел-
лмана. Будем предполагать, что для всех я^О задана функция
%п{х, и, х ), определяющая затраты на управление на я-ом ша-
ге, если процесс находился в состоянии х и после применения
управления и перешел в состояние х'. Полная стоимость управ-
ления на отрезке [О, Щ, если процесс был в состояниях
х0, Х\, . . ., хя, а управления были ио, щ, . .., и^-ь будет

Гм(х0, щ, . ..,л:лг-1, Илг-ь .*лг) = 2 /п(хп, и„, хп+х). (9)

Пусть VoN(x) есть цена управления (см. § 1.1.а)), если началь-
ное положение процесса х0 совпадает с х. Рассмотрим теперь
ту же управляющую цепь Маркова, только начиная с момента
^<ЛГ. Стоимость управления для этой цепи будет

Рк,м(Хк, ик, ...,Ндг_1, Хм) = ^ /п(хт ип, Хп+\). (10)

Обозначим через У£ (х) цену управления для этого управляемого
процесса в предположении, что начальное положение хк совпада-
ет с х. Уравнения Беллмана связывают функции У% (х) при
разных к < N и дают возможность их вычислять рекуррентно.

Будем предполагать, что X, и — полные сепарабельные мет-
рические пространства, функции /п(х, и, х')в-&ххихХи ограни-
чены снизу, рп(А1хп, Чп)е^ххи для всех замкнутых АвЗёх.

Теорема 3. Справедливы соотношения

У»(х) = т1§[/к(х, и, х')-т-У?+1(х')]рк(с1х'/х, и), (11)

и

£<Л/\ при этом считаем, что Ум(х) = 0.

Доказательство. Пусть 1?# = 0, а при функции

Ук(х) определяются последовательно равенствами (11). Используя
формулы (2) для функций Рм вида (9) и соотношения (11) для
У и (х), находим

N-1

р'м-\(х0, и0, ..., д:лг-0 = 2 /*(■**> ик, хш) + Уи-1{хи-1)-

6=0

Далее,

ЛГ-З

й=0 "ЛГ-2"

+ (Хи-г)] рм (с1х.у-\ | л:^-2, Илг-г) =
лг-з

= 2 /к(хк, ик, Хк+\) + 1^^-2(^-2).

Продолжая, находим /^о (л:) = 1/6У (х0), поэтому Ко" (л:) = У о (х).
Аналогично, рассматривая^ управляемый процесс на [к, Л/], уста-
навливаем, что 1^ (х) = (х). □

Замечание 1. Предположим, что в (11) инфимум до-
стигается для всех /г и л'. Тогда на основании утверждения А7
§ 1 существует борелевская функция gk{x) из X в и, для ко-
торой

V" = ^О + ^-м (•*')] Р* (<*■*' | х, ёк(х)). (12)

Последовательность функций u!l=gk(Xk) определяет нерандоми-
зированное оптимальное управление.

Замечание 2. Если функции /к(х,и,х') непрерывны
Снизу и ограничены снизу, О — компакт, а вероятности пере-
хода удовлетворяет у. с. н., то все функции Ук(Х) и
[/ (х, и, х')А~Ук+\ (х')] рк(йх' | х, и) непрерывны снизу, поэтому

существование борелевских функций gh(x), удовлетворяющих
(12), вытекает из утверждения III § 1.

Определение 1. Нерандомизированное управление
вида {ик=дн(х)} называется марковским (соответствующая
стратегия также называется марковской).

Таким образом в замечаниях 1, 2 даются условия существо-
вания марковского оптимального управления.

Замечание 3. Если для всех к выбрать функцию gьк'г(x)
такую, что

У?(х) + Ь>

> $ [/* (х, gЬkk(х), х') + (х')]рк (с!х' | х, ёь£(х)), (13)

существование таких борелевских функций вытекает из утверж-
дения А7 § 1, то последовательность функций Uк = gfкk(xк),
& = 0, N—1 определяет е-оптимальное марковское управле-
ние, если только бо+. • .+блг-1 <е. Это устанавливается точно
так, как в теореме 2.

Предыдущая << 1 .. 83 84 85 86 87 88 < 89 > 90 91 92 93 94 95 .. 110 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed