Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 70

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 64 65 66 67 68 69 < 70 > 71 72 73 74 75 76 .. 97 >> Следующая

проверить 8.10.Д. Чтобы разность
S S
с* - cr = j dtut [Ctx (ип, zx) Ft (dx) - [ dut j C\x (u'tx, zx) F't (dx)
Г Г
была ЧД%?ЬГ -измеримой, очевидно, достаточно, чтобы каждая мера Ft (Г) и
F' (Г) обращалась в нуль на множествах ГС[а, i). Предполагаем, что это
условие выполняется. В частности, это имеет место в важном случае, когда
мера Ft и мера F ' имеют вид (9.5).
Вследствие выполнения указанных условий мы можем применить теорему 8.11,
согласно которой в качестве достаточных координат берутся апостериорные
вероятности Wt (или заменяющие их параметры), а также координата ut.
Последняя принимает одно из двух значений 1 или 0, поэтому урезанный
условный риск S,(co ] Xt) =St (ut, Wt) есть в данном случае пара функций
S,(l, Wt), St(0, Wt).
Нетрудно записать рекуррентные соотношения (8.38) для урезанных условных
рисков. Заменяя индекс ср (t) - t на ступенчатую аппроксимацию
227
фл' (t) = tk при t i [tk, tk+1)
(tk+1-tk< Д)
согласно (8.39) имеем
Stk (utk, Wtk) = min M [<?'*+' - c** +
+ 5^+1 (utk+l, Г/й+1)|ЙЛй^-1, И^Ь (Ю.6)
При Utk - 0 выбора не остается и
"V0' =Щс-с*\щк = 0, Wtk\ = 0,
поскольку с - с< = 0 при tf>'& в силу (10.5).
При Utk = 1 минимизацию по будем проводить в два приема: сначала
минимизируем по {ut., ti [tk, 4+i]} П1^>^')}'ии#
при фиксированной функции <4|+', а затем по и}*+1, т. е. по
ft(>y. На первом этапе минимизации, очевидно, имеем
min М (c^+! - Л11, и\\+\ Wt.} =
<4+1 __ <4+1
j sf ut dt - j sAdut, (10.7)
h 'k
где обозначено ,ч
sf = f min M [Ctx (utx, Zx) | Wt ] Ft (dx);
J utx
s'& = j min M (Ctx (u'tx, zx) | Wtk] Ft (dx).
"tx
Подставляя (10.7) в (10.6), для utk = 1 получаем
<4
<4+1
f sfdt + m(Stk+l(i, wtk+l)\Wtk]). (io.9)
<4
Для сокращения записи формул удобно предположить, что sfdt-\-+ ds'tA > 0
при всех t, тогда (10.9) примет вид
<4+1
S^(l,\Fg = min{S;ft(^), j Sfd/ + M[5/ft+1(l,^+1)|^]}.
* (10.10)
228
(10.8)
ь г'Л
чениями
Здесь st записано в виде stk (Wtk) в соответствии с обозна-
st (wt) = f min М [Ctx (un, Zx) | Wt\ Ft (dx);
J utx
(10.11)
st (wt) = j mm M [C;T (u'tx, zx) \ Wt] F\ (dx).
u'tx
Предполагается, что в результате минимизации по оценочным управлениям Ut,
u't в (10.8), (10.11) получаются измеримые и интегрируемые функции, что
легко проверяется в конкретных задачах. Поскольку
Л1 [C^t (utx, Zx) 1- M [CfX (utx, zx) [ Wt\ -|-o(l)
и
sf = !A[st(Wt)\Wtj]+0(1); o(l) ^ 0 при / --" 0 (п. h.), то в (10.10)
можно заменить sf на st. Это дает
*a+i
¦s*k ' Wt>)=min К{Wt^ M [ 1{Wt) dt+
<k
(10.12)
+ Stk+1 (1, Wtk+l) | + 0 (tk+i tk).
В соответствии с (10.1), (10.5) к этим рекуррентным соотношениям нужно
добавить "начальное" условие: Sb( 1, W)=sb(W).
§ 10.3. ПЕРЕХОД К НЕПРЕРЫВНОМУ ИНДЕКСУ. ДИФФЕРЕНЦИАЛЬНОЕ УРАВНЕНИЕ ДЛЯ
РИСКОВ
Чтобы совершить предельный переход к непрерывному индексу <pw (t) -> t, А
-> 0 и доказать независимость результатов от специального выбора Д-
разбиений { , удобно вос-
пользоваться понятием пространств регулярности D°t, Т, введенном в п. 4 §
8.6. Если St, (I, Wb) € D°b , то вместо последовательности условных
рисков
Sb(l,W), StK(l,W), StN_{ (1, IF), ...,
определяемых формулой (10.12), можно рассматривать последовательность
функций
Sb(l,W), St"n,W), Stjv_t (1, W),...,
принадлежащих областям регулярности: Stk (1, IF) ? D°tk- Эти функции в
силу определения 8.8 связаны соотношением (8.53)
229
<4+1
5,ft(l,lF)=min{S;ft(nM[ j st(Wt)dt\Wtk = W} +
<4
+ Ttktk+lStk+i(l, W)} + o(A), (10.13)
аналогичным (10.12), которое можно также записать в виде (8.54):
(1, W) - Stk+l (1, W) = %,+1 (W, S(ft+1) (/*+, - tk) + о (A).
Здесь %A+1 - не зависящая от А функция, равная в силу (8.55), (10.13)
пределу
ф, (R7, St) = lim A-1 (min
д-"о
t
М [ j
sxdx\Wt-A = W
+
-f Tt-A,tSt - S,l = lim min
Д->0
t-Д
St-A ~
+
3,
[tI'
t-A
sx dx I W
+
(10.14)
Применение теоремы 8.9 дает полное обоснование предельному переходу фА
(t) -+ t, A -> 0. Согласно ей результирующий урезанный риск как функция
непрерывного времени удовлетворяет уравнению
^T~ = b№St(W)) (St{W) = St(l,lP)). (10.15)
Существование предела (10.14) обусловлено существованием пространств
регулярности. Пусть функция st непрерывна, так что
М
I
t- А
W
= s,(№) + o(l). (10.16)
При минимизации в (10.14) сравниваются две величины, обозначим их для
краткости А к В. Рассмотрим область Hi (в пространстве апостериорных
вероятностей W7), где
lim min [А, Б] = limfi. д-*о д-"о
Аналогично определяем вторую область
Е2 = {IF: lim min [А,В\ - lirnA}. д-"о д-"о
(10.17)
(10.18)
230
Из существования предела (10.14) вытекает существование предела
ЙМТ /**!*]+
t- Д
в области Н1. Поскольку в силу (10.16) имеем
limM
д-о
t
\_
А
t- д
j == st(W),
то, следовательно, в существует предел
lim A-1 [7V-a,* St - St] = At St, (10.19)
Л-7>0
и поэтому
Ф,(Й^) = 5,(1Г) + (ЛД)(Г) В а,.
Аналогично доказывается существование предела
lim - St-A~--~-s't(W) в Sa. (10.20)
д-fO Д
Его мы обозначаем-s't (W). Уравнение (10.15) принимает вид
Предыдущая << 1 .. 64 65 66 67 68 69 < 70 > 71 72 73 74 75 76 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed