Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 38

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 32 33 34 35 36 37 < 38 > 39 40 41 42 43 44 .. 97 >> Следующая

фактически. Именно
Н = {х (¦): Ь?а (х (t), у (t), t) = q(a (t), (x (t), у (t), t) -
Применим теорему 4.1 к мере Р(Л | .*:(•)), соответствующей допустимому
множеству. Вследствие (6.18) инфинитези-мальный оператор (4.26) (где
положим v = Q) можно заменить на оператор
Меву, соответствующую этому оператору, обозначим Q (Л) , Л€ "2Л Теорема
4.1 дает следующее выражение для производной Радона - Никодима мер Р(Л |
х(-)) и Q(A) на о-алгебре У
+ а?' (х (0. У (t), t) qrla- (t) d"ya¦ (t) -
-~a9-{x{t), у (t), t) q^o' (t) aa- (x (t), y(t),t)dt~^. (6.20)
^р''(Т' Ьо'Я' &Я' - Гр" (0>
t ? [s, u]; P, о = 1p" = /' + 1.......................................I).
(6.18)
P (dy(-)\x(-),y(s)) Q(dy(-)\y(s))
(6.19)
где
U
129
Переходя к бейесовской статистической задаче, зададим меру И(Г), Г€ X в
функциональном пространстве АЭх(-). Пусть эта мера является марковской и
описывается (априорным) инфинитезимальным оператором: dLpr(t)afi-
Комбинация мер R и Р(-|х(-)) определяет меру в комбинированном
пространстве (Z, Ж) = (XXY, ХхУ). В самом деле, можно положить
Р (ГЛ) = | Р (Л | х (•)) R (dx(-)), Г?Х, А?У. (6.21) г
Легко понять, что мера в комбинированном пространстве будет марковской
вследствие марковских свойств исходных мер R, Р( •|'х(-)).
§ 6.3. АПОСТЕРИОРНЫЕ ИНФИНИТЕЗИМАЛЬНЫЕ ОПЕРАТОРЫ
1. Возьмем равенство
Р(Л I х(¦ )> y(s)) = j X"<Mdy(-)\y(s)),
А
эквивалентное (6.19), и проинтегрируем его с мерой Р( Т-Ф)) по множеству
Y^LX ¦ Согласно (6.21) будем иметь
Р(ГЛ |х(5), y(s)) = j' №/(•-) \У (s))] R(dx(-) |x(s)).
г л
Используя теорему Фубини, отсюда получаем
Р (ГА | х (s), y(s)) = f [fx"R(djc(.)|x(s))]Q(<ty(-)|y(s))
а г
Следовательно, при фиксированном Y?X мера P(rA|x(s), y(s)) является
абсолютно непрерывной относительно Q(A|y(s)) на У" )Л и соответствующая
производная равна
_P(Ydy(-)\x(s),y(s))_ = Г (d (_) | хф) (6 22)
0(^(-)Ы(r))) V Wl W/ V 1
Г
Положим здесь Г = Гц? %и> s и обозначим
К"(Х(5), у (S), Г") ^ V"(x(s), Г ) = P(r^(?l|(1\f(S))- (6'23>
Q(*/(-)k(s))
Сопоставим сказанное с гипотезой 5. 1. Пр и таком сопоставлении,
естественно, следует полагать
Е = Етх Rc, 2Et = %tX У{,
Xt = Xtx У°\ yt = X°xyt, где X°, У°- тривиальные о-алгебры, состоящие из
всего про-130
странства X или У и пустого множества. Гипотеза 5.1 оказывается
выполненной, причем мера (6.23) представляет собой основную апостериорную
меру (5.36).
Найдем инфинитезимальный оператор, соответствующий этой апостериорной
мере.
В § 5.4 было доказано (теорема 5.8, свойство 3°, формула (5.27)), что
система мер (6.23), а следовательно и мера (6.22),
ся марковской. Меры К(Г|;с(д)) и R(T|;c(s)),KaK видно из (6.22), являются
абсолютно непрерывными на , причем соответствующая производная имеет вид,
аналогичный (6.14). Поэтому катим мерам можно применить теорему 6.3. Как
видно из сравнения (6.14) и (6.20), имеем
Итак, мы получили следующий результат:
Теорема 6.4. В рассматриваемом случае основная апостериорная мера (6.22),
(6.23) сосредоточена на допустимом множестве (6.18) и имеет
инфинитезимальные операторы
оператор, соответствующий априорным переходам между состояниями.
Обычно для таких априорных переходов (йСрг)а?, - - pap (t) dt, поэтому
сравнение (6.24) с (6.3) дает
2. Найдем теперь для апостериорной системы мер Vs другой
инфинитезимальный Оператор dL(t), определенный посредством (6.2).
Применяя формулу связи (6.6) к (6.24), нетрудно получить
т. е. мера V (Y \х (s)) =
Р (Г dy(-)\x(s), y(s)) Q(dy(-) 1 y(s))
, Г ( %us> являет-
е\ш{у, t) dt ф gx{t)a-(y> t)d*ya' = c(x(t), y, t) dt + + V (x (0. У> 0
Яго- (t) d'ya
так что формула (6.13) принимает вид
dL* (t)ар = dC (t)afi + [с (a, у (t), t) dt +
+ a9' (a, у (it), t) <7фо- (t) d*ya. (t)} бар. (6.24)
(6.24), где dL*1* =dLpr -априорный инфинитезимальный
Лаз ("А 0 = ра3 (0 + С (а, у, t) бар;
Лара' {У> t) а9' (ct, у, ^) Р'р'о' {t) 6ар, .Даро" ^ 6. (6.25)
131
т. е.
dL (t)ae = Papdt + |с (a) dt + ar (a) b~^ \^dy0' -
~a0' {a)dt j faP' ^ b^a']ba-ndt^bafi, (6.26)
где
ar (a) = a?' (a,y(t), t); 6p.a. = bf>a. (a, у (t), t) = qra. (t).
Последнему члену можно также придать вид
- [<V (") V°'l ben = Ь~'а-Ьа,я + ар. (а) -^~-Ь0'п =
__daf,(а) ^ ( дЬх,я,
Qy Ьр'а'Ьа:п Яр- (а) Ьр'х' Qy Ьц'а'Ьа'л- (6.27)
Докажем, что выражение
^ Ьла' - Ьух' ^ Qy 6лсг'| Ьа'л' (6.28)
не зависит от а на допустимом множестве (6.18). Для этого
рассмотрим приращение
Дqf0 (t) = Дbpa (х (t), у (0, t) (Д/ = / (* + Д) - / (0).
Если в окрестности точки t функция x(t) не испытывает скачка, то очевидно
дЬоп
д<7ро (0 = (х (0. У (0> 0 д#я + 0 (Д). дУл
Умножая обе части этого равенства на Аух и пользуясь леммой 2.2, имеем
lim У AqPAyx = Г bnxdt. (6.29)
д->о J
Но в левой части стоит величина, которая на допустимом множестве (6.18)
не зависит от а. Следовательно, и выражение ^??_ Ьлх (р, а, т любые),
стоящее в правой части, не за-дул
висит от а. Этим свойством поэтому обладает и (6.28). Слоевом, все
функции, входящие в (6.26), (6.27), кроме с(а),
, . dafia)
ap'(a)>--------- не зависят от а.
Предыдущая << 1 .. 32 33 34 35 36 37 < 38 > 39 40 41 42 43 44 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed