Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 58

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 52 53 54 55 56 57 < 58 > 59 60 61 62 63 64 .. 97 >> Следующая

относительно а-алгебры Wsy!ss<t. Это может быть показано при помощи
формулы (5.83) (в данном случае при наличии управления апостериорная мера
Ks является пзмеримой). Указанная измеримость эквивалентна соотношению
WtdW^lyi или <7^<^1-измеримости индикатора
iB (ш) = i (в | и1СУ1) = I (в I wytaj\)
множества В ?Wt. Расширяя а-алгебры в условии, очевидно, можно записать
/ (В | utyt) = / {В | UtytW<?s) = / {В | ybytyg,). (8.63)
Представим вероятность Р (В | Ц(1У8) в форме условных математических
ожиданий:
р (51 и*У*) == м (М [/ (В I UHJ(W^S) | UnJ'WsZs] | и*У% Подставляя сюда
(8.63) и учитывая, что
м [/ (В | ulylwszs) | =м if (В I ulyiw^,) 1 wtl?g, 1=
==P[B\WM?sl (8.63.a)
190
вследствие марковского условия 8.9.В (см. (5.80))*, получаем Р (В I МУ*)
= j М [1В (со) | WsUlZs] Р (dee ? Zs | МУ*) =
= jM[/B(W)|cFs^s] ГДсАо).
Как видно отсюда, вероятность Р (В| Uteys), В ( Wt является Ws^s-
измеримой вследствие Ж,^^-измеримости функции М[/в(со)
I 'W'sUlZj. Это доказывает 8.7.Б и завершает доказательство теоремы.
2. Результаты, полученные выше для несвязанного управления, допускают
обобщение на случай связанного управления. Предположим, что множество U
управлений и является марковски связанным в соответствии с определением
8.1. Это значит, что существует функция ut(ul) и соответствующие ей cr-
алгебры Ut, такие, что у!$ (W) = U!s Ш5), s<t. Условия 8.9. А-Д при этом
следует подвергнуть модификации, заменив их на более общие. Вместо 8.9.А-
Б будем иметь
8.10.А - Б. Ul (usa)=i?(us)- (8.64)
Zt (ul, zl) = Zt (Si); Zl (ul, zl) = zl (us, ul). (8.65)
Теперь предполагается, что фазовое пространство основного процесса может
зависеть от предыдущего управления ul , но эта зависимость сводится к
зависимости от марковской координаты us. В марковском условии теперь
также может стоять зависимость от марковской координаты:
8.10.В.
Р (А | ul, zl) = Р (Л | us, ul, zs), Л ? Zs П (s < t).
* При сравнении с (5.80) нужно иметь в виду, что
Ws = <Fup-, UsysWs = 'F'npZD?rпР; У1 = Рб-
Тогда применение (5.80) дает
М [Р (В | ^пр ?, u{) I ^;р ?t и{\ = р (В | ^пр Z, и(),
что совпадает с (8.63. а).
191
Аналогичным образом обобщим и другие условия:
8.10.Г.
У\(Ua, ZSa) = У{ (us, U{) (u" "4)j
8.10.Д. сt - cs есть не только ^-измеримая, но и U^sZl' измеримая
функция; с - сь является ^Д^-измеримой.
Теорема 8.11. При условиях 8.10.А-Д совокупность xt=(ut, Wt) марковской
координаты и апостериорных вероятностей W;(Л€ Z?t(ut)) = Р(Л | %1'У')
служит достаточными координатами.
Доказательство аналогично доказательству предыдущей теоремы. Выполнение
8.7.В вытекает из 8.10.А-Б. Для проверки 8.7.А следует записать равенство
типа (8.61), (8.62). Вместо (8.61) теперь согласно 8.10.Д имеем
м [с*- cs I и*У*\=] [с( ("') - С* (со')] р (dffl' z ilsld%bs I и'У*?} X
X Р(ЛвЮТ').
Согласно 8.10.В
р (Л I МУ!%>) = Р (Л |UsU&s), Л ?п <&',
поэтому
м [с1 - с4; и*У* 1 = f м [с1 - с 1 iuu!s%s\ р (d(r) | и'У5)-
а
Но мера Р (dco (¦ ^ I полностью определяется мерой
{А ( | и*У8) и значениями us, ul (значения us, и{ однознач-
но заданы, коль скоро фиксированы иа). Отсюда имеем
М [с1 - cs | и*У*\ = М [с1 - с* | Ustfflsl-
Мы видим, что отличие от соответствующих формул предыдущей теоремы
заключается лишь в том, что в условии математических ожиданий и
вероятностей стоит, кроме UsW5, также а-алгебра Us. С такими же
изменениями проводится доказательство выполнения (8.37) и требования
8.7.Б. Здесь снова используется то обстоятельство, что при фиксированном
управлении "означение координаты ut = ut (иа) = ut(us,us) как функции от
us и ul является однозначно заданным. Поэтому мера Р(Г€%| <Ц*У*)
сосредоточена на множестве {и^ = ut(us, us)}. Другими словами, первая
переменная пары (ut, Wt) является при фиксации us, us (s<t),
детерминирован-но определенной. Второй же переменной Wt соответствует
вероятностная мера Р (В (zWt [ °1?У&). Тем же способом, что и
192
ранее (с указанной модификацией), для нее выводится равенство
р (в | ms) = р (в I ttf?ws), Biwt.
В итоге условие 8.7.Б оказывается проверенным для обеих переменных т и
Wt.
3. Приведенные теоремы показывают большую роль, которую играют в
теории управления апостериорные вероятности Wu или заменяющие их
переменные ("вторичный апостериорный процесс" в соответствии с
терминологией п. 2 § 5.6). Как показано в § 5.6, эти вероятности
представляют собой марковский процесс (теорема 5.9) и для них,
следовательно, может быть введен вторичный апостериорный оператор ?? (t).
Будем предполагать, что существует производная dj?(t)ldt, имеющая смысл
обычного (определенного в соответствии с Дынкиным [3]) инфинитезимального
оператора марковского процесса .
В рассматриваемом здесь случае управляемого процесса вероятности
перехода, а поэтому и инфинитезимальный оператор являются зависящими от
управления u(zU. Отмечая это, будем писать d'S(t, u)/di. При помощи
данного оператора записывается уравнение альтернатив (8.48). Чтобы
показать это, остановимся для определенности на случае 8.9.А-Д. При этом
Предыдущая << 1 .. 52 53 54 55 56 57 < 58 > 59 60 61 62 63 64 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed