Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 49

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 43 44 45 46 47 48 < 49 > 50 51 52 53 54 55 .. 97 >> Следующая

ЗУ \ W)~ Q (А ? ЗУ \XS) можно рассматривать как условные вероятности,
образованные из единой комбинированной вероятностной меры Q (Л | Ха) =
Q(A), Л ? §?>ь = Зо> в соответствии с формулами
Ps' (Г iW | Xs) = Q (Г I Xs); р (A i IW) = Q (А \ W);
Q (А ( 3&( | Xs) = Q (Л | Xs), s<t (п. н. Q).
Решение б определяет, следовательно, единую меру Q в пространстве
(Q,t$3), и наоборот.
5. Функция штрафа и условные риски. Качество решения определяется
величиной риска. Под последним мы понимаем математическое ожидание
функции штрафа с (со), со (Ей. Эта функция, которую мы предполагаем 3& -
измеримой и Q-сум-
163
мируемой, задается в условии задачи. Поскольку мера Q определяется
решением б, то риск
Д6 = Jc(<b)Q(Ab) (8.6)
является характеристикой решения б. Наряду с указанным риском можно
рассматривать условные риски
R* (J?0 = (а>) = j с (и) Q (da> j J?'). (8.7)
Эти риски образуют однопараметрическое семейство с условием согласования
R6 (J?s) = j R6 (J?l) Q (d(D I &), s<t.
Последний элемент семейства совпадает с (8.6): Re(J?a ) =R6, поскольку о-
алгебра предполагается тривиальной.
§ 8.2. СЛУЧАЙ СТУПЕНЧАТОГО ИНДЕКСА. ОПТИМАЛЬНЫЕ УСЛОВНЫЕ РИСКИ
1. Предположим, что индекс ф(г') является ступенчатой функцией с
конечным числом скачков в точках a = t0<ti< < ... <tN<b. Следовательно,
ф(/) = ф* при ti [tk, tk+0, k^O,
(<P* < ti < h ПРИ i < k) если обозначить ф (tk) = фА.
В данном случае семейство б решающих мер, а следовательно и мера Q,
полностью определяется конечной системой мер:
Р^+] (A i utk+l | k = 0, 1 N.
Покажем это. Используя Р (А i Шь\ W), можно найти Р (A \ Uby'fN)-
Принимая во внимание, кроме того, меру p?v (Г | UiNy'tN), можно вычислить
меру
Q (А ] фУ*ы) = j р (A I иьУ^) p*w (cto i ub | UtNy*N),
A i<3s>b.
Далее, поскольку
utNyVN <Z&>tN,
можно определить QL{N\UtNy'tN~x) при помощи интеграла 164
Q (A I UtNcy*N-x) = f Q (A I UtNy^N) P (dm i UtN V'fN j UtNcy*N-•).
(8.8)
В самом деле, мера Q(A \(\?Ny4'N) уже определена, а
Р(dmCLMtN\<llfNy'tN~l) задана в условии (п. 2, § 8.1).
Аналогично, используя решающую меру (Г| У}Ы~ХУ^М~Х), вычисляем
Q (Л | tfN-iyVN-О = f Q (Л j UtNy*N~x) (dm | U'N~i^v-i).
(8.9)
Продолжая описанный процесс интегрирования попеременно с весом Р(-
|<Ц?*с+11Уч'к) и с весом (• \и'кУ'(к), определяем
различные меры 0.(А.\<Ц?кУ'*к), Л? d(r). Последней будет вычислена единая
комбинированная мера Q (Л \??а) = Q(Л).
Непосредственной проверкой можно убедиться, что для нее справедливы все
утверждения п. 4 § 8.1.
Принимая во внимание формулы типа (8.8), (8.9), получаем, что условные
риски (8.7) удовлетворяют в данном случае рекуррентным соотношениям
R6 = J ['и/к+хУч>к+х) Р (dm | и'к+хУч)\ (8.10)
Rs (и*#У*к) = J R6 (Utk+iy9k) 1^+1 (dm I Utky%). (8.11)
В этих соотношениях роль "начального" условия играет функция
R6('llby'f{b)), а заключительная функция R6 (иаУ(1>Ха)) совпадает с
риском (8.6).
2. Введем в рассмотрение оптимальные условные риски
R(Uky к)- Пусть они определяются аналогичными рекуррентными соотношениями
(8.10), (8.11) с тем же самым
"начальным" условием, но в отличие от предыдущих рекуррентных соотношений
усреднение (8.11) с весом p/fe+1 (- I ctfhy<tk) заменяется на условную
минимизацию:
k
R(U**!ffk)= inf ROlfb+'y^). (8.12)
со | Фу^к
Условный минимум
inf /(со)
(r)I(Fi
tFs-измеримой функции /(со) относительно о-алгебры &r1d&ri как определено
в Приложении 2, есть (^-измеримая функция, удовлетворяющая условиям П. 2.
1. А-Б. В Приложении 2 доказано, что условный минимум обладает следующим
свой-
165
ством (теорема П. 2. 3): при Любой вероятностной мере р(Л€ <^2 |iFi)
(определенной на^РгХП и -измеримой по второму аргументу) выполняется
неравенство
Сравнение преобразований (8.11) и (8.12) на каждом этапе рекуррентных
преобразований в силу этого показывает, что преобразованию (8.12)
соответствует меньшая (точнее, не большая) результирующая функция. При
сравнении функций на заключительном этапе преобразований имеем R6> R.
Таким образом, мы получили следующий результат: Теорема 8.1. Оптимальные
риски не превосходят рисков любого решения 8, имеющего тот же ступенчатый
индекс cp(t):
В следующей теореме сравниваются оптимальные риски, соответствующие
различным ступенчатым индексам.
Теорема 8.2. Оптимальный риск Rv для ступенчатого индекса ф(0 не
превосходит оптимального риска, соответствующего не большему ступенчатому
индексу q>'(t) •< ф(t).
Доказательство. От любой ступенчатой функции с конечным числом ступенек
можно перейти к другой ступенчатой функции через конечную
последовательность ступенчатых функций, в которой соседние функции
различаются лишь одной ступенькой. Поэтому достаточно доказать теорему
8.2 для функции ф(-), имеющей по сравнению с ф'(-) одну лишнюю ступеньку,
причем остальные ступеньки совпадают. Положим, например, ф'(0=ф(0 пРи
t<itk и t>tk+u а также
ф(0=фй, ф/(0=ф^<ф& при Д<Д<4+ь Согласно (8.10), (8.12) для ф(0 имеем
R Ф (и*#У*к) = Г [ini g ((r))] Р (Ло | ФУ^'к).
Для ф' (/) в то же время
Предыдущая << 1 .. 43 44 45 46 47 48 < 49 > 50 51 52 53 54 55 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed