Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 56

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 50 51 52 53 54 55 < 56 > 57 58 59 60 61 62 .. 97 >> Следующая

------------------- = Mq
и перейдем к пределу Л ф 0. Если функция с* дифференцируема по t:
rt л-д
lim----------= С.;
д Г о А 1
. А
limMQ
дго
если St ? D), то в итоге получим уравнение
._ dS* М
dt
{ Л |*] - Mq [Ct | х] (8.44)
'е получим уравнение Mq[C(|*] + (4S,)(*). (8.45)
В противном случае соответствующее дифференциальное уравнение имело бы
вид
-¦ dSt (х) = Mq [dc* | х] 4- d*L* (t) St (x), (8.46)
184
где dL*-дифференциальный инфинитезимальный оператор,, определенный в п. 1
§ 3.1.
Запишем теперь дифференциальное уравнение для урезанного риска при помощи
инфинитезимального оператора второй полугруппы. Для этого обратимся к
уравнению (8.39), соответствующему допредельному индексу. В фигурных
скобках в его правой части стоит <Ulk+lXt,-измеримая функ-
k *
ция, поэтому минимизация .по <fl | Xtk сводится к минимизации по utk+'-
\%tk. В уравнении (8.39) можно записать любой из этих вариантов, а также
вариант u\%t Поэтому имеем
(х =¦- xtk, Д = 4+i - tk).
Производя предельный переход ср^ ]" q, tk~* t, 4+1 t, отсюда получаем
Сходимость (8.49), как легко видеть, вытекает из условия
дифференцируемости (8.44). Условие (8.50) является, возможно, несколько
более сильным, чем естественное условие
Естественное обобщение уравнений (8.48) на случай недифференцируемого
штрафа и недифференцируемой полу-
группы по аналогии с (8.46) имеет вид
- dSt (х) = min{Mp [dcl | u, х] + d*L* (t, u) St (л)}. (8.51)
Здесь и в (8.48) х?Х - точка пространства достаточных координат, a u - Ua
-функция управления. Подлежащее минимизации выражение, однако, зависит в
действительности лишь от ее значений в окрестности точки t.
A
= min
u\x
M
(8.47)
dSt (x)
= min
u\x
dt
если
(8.49)
и
Чс+т^Ч+1 Ч+i
At (u) St при tk t, 4+1 -"t. (8.50)'
A
(т. e. условие S, ? QD(u)).
u
U\x
185
Минимизация в уравнении (8.48) или (8.51) соответствует выбору
оптимальной альтернативы (выбору оптимального "инфинитезимального
управления" u*t+dt из ряда возможных), поэтому назовем его уравнением
альтернатив. Как отмечалось, ему соответствует "начальное" условие
Sb (х) = МР [с (со) - сь (со) | хь (со) - х].
Решение этого уравнения при обратном течении времени позволяет
последовательно определить St(x) и оптимальные (или близкие к таковым)
решающие меры. Отыскиваемое в последнюю очередь значение Sa(*) дает
полный риск R = ca + Sa.
4. Условия, при которых имеет место дифференцируемость
(8.43), (8.44), (8.50) и при которых вид уравнений (8.45), (8.48) не
зависит от специального способа перехода к пределу, связаны с условием
регулярности управляемого процесса (§ 8.4). Рассмотрим здесь некоторые
вспомогательные понятия и достаточные условия регулярности, которые
удобно проверять при решении конкретных задач.
Для простоты в этом пункте предполагаем, что индекс ¦ср(/) всюду имеет
ограниченную первую производную по t.
Определение 8.8. Назовем пространствами регулярности Dt С Gx, t(zT такие
множества функций, что для каждой g?D( и любого А>0
8.8.А. существует измеримая функция g' ( отличающаяся от функции я
min МР [с* - + g (xt (ю)) | Ч>(<_Д))] (8.52)
С0|
на о(1)Д. Согласно 8.7. А - В это условие можно записать
g' (х) = min{Mp [с* - с*-*\и, xts=x] + (Tt-xt(u)g)(x)\ + o( 1)Л.
"Р (8.53)
8.8.Б. Существуе'1, далее, не зависящая от А и непрерывно зависящая от t
и g(CDt) функция гЦ {х, g), удовлетворяющая равенству
g'(x) -g(x) = Ь(х, g) А + о(1) А. (8.54)
Из сопоставления (8.53), (8.54), очевидно, следует
min|МР ----1и, хj + | = ф/ (х, g) + о(1).
(8.55)
Оценка о(1) здесь берется в смысле нормы (8.19) или (8.20), т. е.
предполагается равномерной по х.
Ценность введенных понятий видна из следующей теоремы:
Теорема 8.9. Если S(b) принадлежит пространству регулярности Db , то:
1) процесс является регулярным в смысле определения
8.4;
2) урезанный условный риск удовлетворяет уравнению
_ = ^ s(8 56) dt
Доказательство. Пусть 2 -счетная всюду плотная в Т последовательность.
Рассмотрим А-разбиение 2жС2 интервала [а, b] точками tl<t2< ... <tN и на
каждом элементарном интервале [4, 4+i] используем условие 8.8.А. Это
условие позволяет рекуррентным образом найти последовательность функций
(обозначим их Stji), принадлежащих пространству регулярности St ? D° .
Учитывая 8.8.А, можно провести
R х
Q.N
сравнение их с оптимальными рисками для данного разбиения. Суммируя
отклонения о(1)Д, имеем |S*-5^ | =
* k
= о(1) (b-4) и, в частности, •|4Vv-¦/?<РЛ'| = о(1) (Ь-а) (здесь мы
воспользовались непрерывностью преобразования (8.52) относительно
введенной метрики в пространстве Gx). Из этого результата следует
сходимость последовательностей
St (-*Sf) и R N (-*Rq) при A -" 0, т. е. при /V оо и -"2 (поскольку St ,
R^n сходятся), а также совпадение пределов;
lim Stk = lim = Sf 4 = lim 4);
VimRlfN = \mRlfN = I^.
Используем теперь 8.8.Б. Полагая g - Stk+1, g' - в (8.54) и суммируя no
k, имеем
^ = 2 *4+1 (х> &+* - *ь) + 0 (1) (b - ti)-
k=i
Переходя к пределу A -"0, t, получаем
Предыдущая << 1 .. 50 51 52 53 54 55 < 56 > 57 58 59 60 61 62 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed