Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 48

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 97 >> Следующая

соответствуют а-алгебры Лч (и1а)С1Л'ь (и). Это семейство является
монотонным:
Л'*(иус:Л'Чи$- (8.2)
160
В комбинированном пространстве Q = (/xQ'(") можно рассматривать семейство
а-алгебр Ш* ~ W* X <Л'* (W*). При помощи Ц*{аЩ последние можно записать:
дь1 = ИКЛ1 (U*). Вследствие (8.2) входящие сюда условные а-алгебры
являются монотонными: s<f.
Итак, в пространстве элементарных событий кроме монотонного семейства а-
алгебр управления *Ц* имеется монотонное семейство Ш*, (S&sC2_Ss*, s^t),
причем
<(r)'ZШ*, t^T.
При каждом t^T задана вероятностная мера Р (A \*Ц*), А ? 6 Л* (U1)- Она
является (при фиксированном Л) ^-измеримой функцией точки ?2. Можно
считать также, что мера Р(- \*Ц*) задана на 3?>*. а-алгебра Ш* имеет
смысл совокупности событий, вероятности которых уже определены
управлением и*а.
Иногда по условиям задачи имеется последовательно протекающий случайный
процесс z = { zt, tdT}. По аналогии с и для такого процесса можно ввести
пространства и а-алгебры Z*, Zs(Za), 35"*, 35'*, 3>s* (ZSa) И Т. Д.
(рЭЗИИЦа В
обозначениях по сравнению с п. 1 здесь лишь в том, что буква и заменена
на z). Обычно процесс {zt} таков, что его прошлое и настоящее является
определенным в вероятностном смысле, если фиксировано прошлое и настоящее
управление. В соответствии с введенными выше понятиями это коротко можно
записать
Ж* (и*а) СZJU (и*а), U Ж*Ш) С <"'.
Мы не исключаем, следовательно, те случаи, когда фазовое пространство
процесса г определяется управлением.
При фиксированном управлении иа , естественно, определена мера на 35* ,
коль скоро задана мера Р (• | U*) на <&.
3. Наблюдаемый процесс. В каждый момент времени t наблюдатель-оператор
имеет в своем распоряжении некоторые наблюденные данные I*, не убывающие
с течением времени. Условия, наложенные на эти данные (для фиксированного
момента t), определяют а-алгебру в пространстве элементарных событий,
которую мы обозначим &*. Наблюденные данные в момент t должны быть
определены в вероятностном смысле управлением иа , т. е.
Я*С1<%*. (8.3)
Будем предполагать, что наблюдатель-оператор помнит выбранное им
предыдущее управление:
U*(Z5?*.
161
Обозначим через yvw те данные, которые и входят в 1{, но не
содержатся в и*а. Соответствующую условную cr-алгебру обозначим У<№ {W)-
Иначе говоря, У* есть о-алгебра, опре-
деленная соотношением
Очевидно, из (8.3) имеем
(8.4)
Введенные выше "информационные" а-алгебры обладают свойствами
монотонности
•S?*C.S?'; У*М(и)С1УМ(и) при s<f (8.5)
в соответствии с отмеченным ранее условием неубывания информации.
Удобно представлять себе, что наблюденные данные lf складываются из
последовательно выбираемого управления и некоторого последовательно
наблюдаемого процесса { f/t (со) }, co€fi. При этом пусть в момент t
известны значения этого процесса на интервале [а, <р(^)], так что
1' = К №>)¦
Будем предполагать, что У1 (и')С<А( (U1), где ^(%0 есть о-алгебра,
выделенная условиями, наложейными на yfa . Тогда условие (8.4) будет
выполнено, если <р (?)<?. Чтобы выполнялось соотношение монотонности
(8.5), функция <р(?) должна быть неубывающей. Для удобства дальнейшего
изложения будем предполагать ее непрерывной справа. Функцию ср(t) с
описанными свойствами, определенную на Т и принимающую значения из Т, мы
будем называть индексом решения.
В большинстве задач с непрерывным временем можно полагать ф(t) = t.
Задача о выборе оптимального управления будет решаться методами обратной
вероятности (формула Бейеса). При этом основную роль будет играть
апостериорная вероятность Р (• |Jz?'), соответствующая данным 11 в момент
t?T. Эту вероятность получаем из введенной ранее вероятности Р(- IU*)'
поскольку
4. Решающие меры. Основываясь на имеющихся у него данных, наблюдатель-
оператор последовательно выбирает управление. Задача теории - указать
оптимальный рецепт выбора этого управления. В общем случае этот рецепт
носит вероятностный характер (рандомизированное решение), т. е.
указываются лишь вероятности множеств процессов управления.
162
Назовем решением б двухпараметрическое семейство условных вероятностных
мер
p'(A|.S?*),s<f; s, Ц Т, т. е. мер р.* (Л | и", ^2(s)) = |*| (Л
на сх-алгебре U"sl (Us) или (что эквивалентно) на о-алгебре U* (%ls) или
W. Каждую меру семейства б назовем решающей мерой.
Решающая мера р* (Л? 'Щ | У/У^) в комбинации с мерой Р(Г?((r)*|?^)
определяет условную меру Q (Г | Xs) на о-алгебре <Ш1 3 Г согласно формуле
Q (Г IXs) = j р(Г IXSU[ (Ш р( (rfrn ( Щ m \XS), S<t, или при другом
способе записи
Q (Г | Xs) = J Р (Г [ W&) р* (da ( U\ I Xs).
Решающие меры должны удовлетворять соотношениям согласованности
К № IЧГУ^Г)) = f р' (Г, | Usy<i{s)) Q (dus dy'tf] IUry^r)),
dusr<z Г.
(Гх ? Щ, r2 iWs, r <s<t), или, короче,
К(ГiW\Xr)= f
Решающие меры можно рассматривать как условные вероятности: р( (Г | Xs) =
р (Г \XS), Г ( W, образованные обычным способом из единой решающей меры р
(Д) = р* (A | %ia), А ( Uh¦ Более того, все меры р( (Г ? W \ Xs), Р (А ?
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed