Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 53

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 47 48 49 50 51 52 < 53 > 54 55 56 57 58 59 .. 97 >> Следующая

конечного числа точек ("точек недифференцируемости").
Определение 8.4. Назовем управляемый процесс регулярным, если любое всюду
плотное в Т счетное множество 2, содержащее точки недифференцируемости
индекса, является множеством определения оптимального риска, т. е., если
lim = Rq>- (8.24)
ЛГ-"оо
Процесс называется регулярным на интервале [s, 6], если lim Яф(%)
ОUSV^N)) = Rv (USV^S)).
iV->oo
Рассмотрим признаки регулярности, которые удобно проверять при
исследовании конкретных задач. Пусть
8.4.А. для любого интервала [s, t], не содержащего точек
недифференцируемости индекса и для любого (s, t) справедливо соотношение
min МР [/? I WW\ -
- min МР { min МР [R ЦУУ^Ц \ихУ^) =
юЩруЧЬ) u>\yTcy4:(X)
= {t - s)o{ 1). (8.25)
Вместо этого условия, удобно проверять несколько более сильное условие
инфинитезимальной коммутативности двух •операций: минимизации и
усреднения -
8.4.Б. для любого интервала [t-Д, f\ указанного типа и всякого ф'=<р(t-
Д)-сД (0<с<со) справедливо равенство
min М [R (и"У^~А)) I и'У*') -
<й\и*~&У9'
- М[ min R(Ut'y(f"-&))\ilt-Ay<f')=o(l)A, (8.26)
aiyt-AyqU-A)
где
R(Uty""-л,) = м [Ц(сц;уф(") |U'y^A)]t
¦есть %УУФ(/~Д) -измеримая функция.
Оценка о(1) (->-0 при t-s-*0, Д->0) в приведенных равенствах
предполагается равномерной по всем t и со. Под min
176
в них (а также в дальнейших формулах) следует понимать inf в случае
варианта I и vrai inf в случае варианта II.
Нетрудно проверить, что 8.4.А вытекает из 8.4.Б. Для этого нужно положить
т = t - Д; ф' = ф (s).
Чтобы получить (8.25), остается произвести условную минимизацию по uxs |
%ls выражений, входящих в (8.26). Поскольку эта минимизация является
непрерывной операцией относительно метрики (8.19) (или соответственно
(8.20)), то оценка o(l)A = o(l)(f-s) не изменяется, и (8.25) оказывается
выполненным.
Указанные условия удобны в том отношении, что в них не используются
понятия оптимального решения, и, следовательно, их можно проверять до
того, как найдены решения. Следующая теорема утверждает, что они
действительно являются признаками регулярности.
Теорема 8.6. Из 8.4.А вытекает регулярность процесса.
Доказательство достаточно провести в предположении, что индекс имеет
конечную производную на всем интервале Т (в противном случае аналогичное
рассмотрение проводится- для каждого интервала дифференцируемости индекса
последовательно, начиная с самого правого интервала) .
Пусть 2 - произвольная всюду плотная в Т последовательность точек, a S -
последовательность определения оптимального риска (теорема 8.3); 2ж, SN -
множества их N первых элементов.
Оптимальный риск R<p(zN) ступенчатого индекса вследствие монотонности
(невозрастания) при со имеет предел, который мы обозначим /?ф. Из
определения 8.3 оптимального риска имеем
?Ф > /?ф. (8.27)
Требуется доказать, что
ДФ=/?Ф. (8.28)
Без ограничения общности можно считать, что в
последовательности 5 каждая точка встречается
только один раз.
Обозначим через An (>0) длину минимального элементарного интервала
разбиения, производимого множеством SN, и возьмем A<Ajv. Выберем теперь
конечную совокупность 2д точек из 2, дающих Д-разбиение интервала Т (это
можно сделать, поскольку 2 всюду плотно). Разбиение 2д U.Sjv- очевидно,
будет отличаться от 2д тем, что некоторые элементарные интервалы
разбиения 2д будут разделены на две части
177
точкой (т) из Sk. По теореме 8.2 имеем
> Rqn.A,sN) (>*ф)- (8.29)
В го же время из (8.25) можно вывести, что
0< ^ф(?д> - R<p{sA,sN) < (b-a)o(l). (8.30)
В самом деле, для каждого элементарного интервала
[4, 4+1) Эт разбиения 2д, который разделен точкой т(zSx,
согласно (8.25) имеем
^Ф(,д) - /?ф(1дих) = (4+1 - 4) о (1).
Эта оценка разности не меняется при последующих усреднениях и
минимизациях. Суммируя подобные разности, обусловленные различными
точками из S.v = { т+ ..., тд- }, получаем
N
Яф(*д> Rq>(2A,SN) = 2 [^Ф(5дТ,...............#Ф(2ДД,..т.)] <
г'= 1
< (6 -а)о(1).
Сопоставляя (8.29) и (8.30), находим
I #ф(5дг) - Яф(2д) I < ^Ф(5Л.) --/?ф+ (Ь - а) о(1).
Уменьшением Д и увеличением N разность | Rq>(sN)-^ф(?Д) I согласно
полученной формуле может быть сделана сколь угодно малой. Следовательно,
lim #Ф(2Д) = lim R9(sn) = Rq,. (8.31)
Д-"0 iV->oo
Но
lim ^ф(2д) > lim #ф(2л1) ( = #"), ' (8.32)
Д-¦ 0 М->оо
так как при каждом Д можно выбрать такое М, что 2мЮ2А и значит /?Ф(2Д) >
R<p(xM) (теорема 8.2). Сопоставление соотношений (8.27), (8.31), (8.32)
доказывает равенство (8.28). Доказательство закончено.
В случае регулярного управляемого процесса риск Rq, есть равномерно
непрерывный функционал от ср на множестве Н Эф ступенчатых индексов при
подходящем выборе метрики в Н. Это свойство можно принять за
первоначальное определение регулярности. Однако данное выше определение
8.4 регулярного процесса удобнее в том отношении, что его легче проверять
в конкретных примерах.
178
После введения метрики в Я рассмотрение непрерывных индексов ф
соответствует рассмотрению точек замыкания Я пространства Я. Коль скоро
Предыдущая << 1 .. 47 48 49 50 51 52 < 53 > 54 55 56 57 58 59 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed