Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 57

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 51 52 53 54 55 56 < 57 > 58 59 60 61 62 63 .. 97 >> Следующая

ь
Sf- Si = j' фх (x, Sf) dx (8.57)
t
и
dSf(x) y
^ = %(X, sf) (8.58)
dt
вследствие непрерывности функции tyt(x, St). Утверждение
2) теоремы доказано.
187
Далее, результат (8.57) не зависит от специального способа разбиения (от
2), он остается одним и тем же для любой всюду плотной
'Последовательности 2. То же самое, следовательно, относится и к решению
Sf (х) уравнения (8.58). Среди таких последовательностей заведомо имеется
последовательность определения оптимального риска. В самом деле, если S -
некоторая последовательность определения риска, а 2 - всюду плотная
последовательность, то, как видно из проведенного в пп. 2 и 3 § 8.2
рассмотрения, последовательностью определения риска будет также
объединенная последовательность 2' = SU2, в которой поочередно следуют
элементы из S и из 2. Итак, уравнение (8.58) справедливо для
последовательности 2', т. е. ему удовлетворяют оптимальные риски Sf - Sf
= St. Доказательство закончено.
Если выполнены условие теоремы 8.9, а также условия StdD и (8.44), при
которых справедливо уравнение (8.45), то уравнения (8.45) и (8.56),
очевидно, совпадают и
(х, St) = MQ [Ct | x] + AtSt. (8.59)
§ 8.7. СЛУЧАЙ МАРКОВСКОГО ОСНОВНОГО ПРОЦЕССА
В предыдущем изложении не предполагались какие-либо марковские свойства
рассматриваемых процессов. Следствием определения достаточных координат,
однако, оказались марковские свойства последних. Это является косвенным
свидетельством того, что понятие достаточных координат будет продуктивным
именно при рассмотрении марковских и родственных им процессов. В
настоящем параграфе мы будем предполагать основной процесс марковским и
покажем, что в этом случае наиболее существенную часть достаточных
координат составляют апостериорные вероятности, т. е. "вторичный
апостериорный процесс" (§ 5.6). Поскольку изучением марковских
апостериорных вероятностей занимается теория условных марковских
процессов, то отсюда следует эффективность применения последней к теории
оптимального управления.
1. Понятия и обозначения, связанные с основным процессом, были
изложены в п. 2 § 8.1. Пусть фиксация управления и'а определяет
вероятности Р (-| и*а) процесса zi =
Если через %Е*(11а) обозначить о-алгебру, определенную условиями,
наложенными на г*а , то в соответствии с указанными обозначениями имеем
Пусть ^ ("а, 2а) - о-алгебра, определенная условиями, наложенными на z(,
a %t {и1а, г(а)-соответственно на zt. Тогда
188
марковские свойства основного процесса {zt} можно сформулировать как
свойства меры Р( - | и), именно
Р (Л | U, Ж* (")) = Р (A j U, Жг (U, 2а)), Л ( (", 2") (8.60)
(п. в. Р).
Предположим теперь, что выбор управления и влияет на вероятности Р, но не
на фазовое пространство процесса {zf}, т. е. это пространство одно и то
же при всевозможных управлениях. Пусть, далее, фазовое пространство,
соответствующее
i t',
моменту t, не зависит от za> т. е. одно и то же при различных za- Эти
условия можно записать
8.9.А. 2t(u*a,*a)=Zt (не зависит от и*а, zla).
Управление и ( U будем предполагать несвязанным:
8.9.Б. Ul (ul) = Ul s < t
(не зависит от usa).
В соответствии с 8.9.А марковское условие (8.60) возьмем
в виде
8.9.В. Р (Л [ Ua, ZSa) = Р (A I u\, zs), Л ( S<t.
Остальные предположения относятся к наблюдаемому процессу и функциям
штрафов. Ограничимся практически наиболее интересным случаем, когда
ф(t)=t (случай другого непрерывного индекса ф'(/) может быть сведен к
данному заменой времени t' = q>'(t)). Наблюдаемый процесс yt пусть
определяется (помимо ul) процессом zl:
8.9.Г.
Наконец, будущие штрафы определяются будущими значениями zbs процесса 2:
8.9.Д. с* - cs есть не только сШ1 -измеримая, но и Ul^lm измеримая
функция', с - сь является %ь-измеримой.
Теорема 8.10. При выполнении предположений 8.9.А-Д условные вероятности
Wt (Л ( Ж() = Р (Л | и1<У*) образуют достаточные координаты.
Доказательство. Чтобы доказать теорему, проверим выполнение признаков
8.7.А-В достаточных координат. Выполнение 8.7.В непосредственно следует
из 8.9.А-Б. До-
189
кажем 8.7.А. Обозначим через Wt а-алгебру, порожденную условиями,
наложенными на Wt. Используя 8.9.Д, имеем
^ [с* (со') - cs (со')] р (da>' I Ufys) =
= f W^,)P(d(c)|OT*)- (8.61)
В силу условия Маркова 8.9.В (а также 8.9.Г)
Р (da" ( Zb, | = P(dv>\ il!s?s),
поэтому
м [с* - с* I т*] = f f [с* (0)') - С* (0)')] Р (dffl' I v&s) Ws(da ? ?s).
(8.62)
Эта функция является, следовательно, ^Т^-измеримой:
М [с' - cs | Utey*\ = М [с' - е* | y!%ws\.
Выполнение (8.36) проверено. Кроме того, из 2?ь-измери-мости функции с-с6
(см. 8.9.Д) легко вывести равенство
М [с- cb\ иьУь\ = j (с - с*) R76 (Ло ( 2T6) = М [с - | 'TKJ,
подтверждающее (8.37).
Проверку последнего признака 8.7.Б можно провести методами, близкими к
тем, которые были использованы при доказательстве теорем 5,8, 5.9. Как
следует из теории, развитой в п. 2, § 5.6, апостериорная вероятность Wt(=
Р(Г \<ЩеУ*) для марковского процесса (условие 8.9.В) является измеримой
Предыдущая << 1 .. 51 52 53 54 55 56 < 57 > 58 59 60 61 62 63 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed