Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 73

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 67 68 69 70 71 72 < 73 > 74 75 76 77 78 79 .. 97 >> Следующая

dtxI dtx при этом оказываются ^-измеримыми (зависят от уа не иначе, как
через посредство Wt). Важные для определения оптимального момента
остановки функции (10.11), очевидно, равны
st (Wt) = j М [Сл (dtx (Wt), Zx) | Wt\ Ft (dx); s't (Wt) = j M [C'tx (dtx
(Wt), zx) 1 Wt\ Ft (dx).
Перейдем теперь к рассмотрению решающей функции D (у) = ft, определяющей
момент ft обрывания процесса. Для фиксированного А-разбиения {fi,..., ^v}
имеем, очевидно, еле--дующее оптимальное решающее правило: функция ПЛ (у)
= = DA(Wb) равна тому моменту времени, когда траектория Wba ={ Wt, tC:
[a, b] } в первый раз попадет на множество
Фл - \J \t, W : t = tk, Г (#,)}.
k
Иначе говоря,
D* (Wa) = min {t:(t, Г,)?ФЛ}.
Обозначим, кроме того,
Ф = {/, W-.t^T, Г(ЕД/)}.
Конечно, множество Ф не является пределом lim Фд, но, если
Д-"0
{'Wt} непрерывная функция времени (при фиксированной точке а>), то, как
нетрудно понять,
inf {t: (t, Wt) (; Ф} = lim min {f: (t, Wt) ? ФЛ}-
Д-"0
В качестве решающего правила D (Wba) выберем первый момент достижения
области остановки Ф:
= (1,^)(Ф}, (10.39)
так, что
D(Wb) = lim D*(Wb) (10.40)
Л->0
239
при непрерывной траектории Wba. Но в диффузионном случае траектория Wb
непрерывна с вероятностью 1, следовательно, соотношение (10:40)
справедливо почти наверное.
Решающие функции DA (Wa), D (Wba) определяют риски
DA(Wb)
= М [ Г st(Wt)dtsD\,wb, (WD\,wb-.)];
о
D(Wb'>
R° = М [ Г st (Wt) dt sDty(,b~j (^д(Ц7Ь) )]¦
v cl a
о
Сходимость (10.40), имеющая место с вероятностью 1, позволяет доказать (в
предположении непрерывности функции s't (w) по t) соотношение
lim RA = R°. (10.41)
Д->0
Но из рекуррентных соотношений (10.12) и общей теории (гл. 8) следует,
что предел
lim RA = R (10-42)
д->о
является оптимальным риском. Сопоставление (10.41), (10.42) приводит к
заключению, что решающая функция
(10.40) является в точности оптимальной. ¦
ti ,
Из описанного способа построения решающих правил D (tt^,), DA (Wba)
вытекает следующее их свойство: если траектории
Wa, Wb совпадают на интервале а < t < D (Wa), то
D (Wba) = D (Wa)
(и аналогично для DA). Несколько символически это свойство можно записать
D(Wb) = D(W?) = D(y?).
§ 10.6. ПРИМЕР. ОСТАНОВКА МАРКОВСКОГО ПРОЦЕССА С ДВУМЯ состояниями
Рассмотрим в качестве примера задачу распознавания и остановки
марковского процесса тр с двумя состояниями, описанного в § 9.6, а также
в § 6.5. Наблюдается сумма этого процесса и белого шума или, что
эквивалентно, процесс (9.36). В данном случае основной марковский процесс
является комбинацией двух процессов: zt= (тр, гр).
Пусть в момент остановки требуется вынести оценочное суждение, какое
именно состояние тр = ± 1 осуществляется.
240
При продолжении процесса оценка не производится. Тогда
оценочное управление щх отсутствует, а функция utx принимает одно
из двух значений, скажем 1 или 2. Меры F (dx),
F' (dx) пусть имеют простой вид (9.5), а соответствующие
штрафы продолжения
f А, при ть = 1;
с"к.*>=ц при п:-.1 (ш-4з>
(зависящие в общем случае от состояния тр) и штрафы остановки
f Вп при ть = 1;
С" (""¦=<, 2,) =| fi'' при = "-1,2) (10.43.а)
являются постоянными.
Достаточной координатой в данной задаче является апостериорная
вероятность W\. Образуем соответствующие функции (10.11), они оказываются
не зависящими от времени:
st Ю = s (Wj) = A-lW-l + Л2(r)2 = Л2 + (Лх - Л2) w±;
s't (Wj) = s' (teij) = min [ДцОУ! + B12w2, B2Lw1 + Вггхюг\.
Очевидно, что оптимальное оценочное решение имеет вид
щ / п - и- t - 1 1 ПрИ BljWj {t) < B'Z]Wi {t)'
dtt(yJ dtt (wi (0) ( 2 при Bljw. (t) > BtjWj (t)
(no j проводится суммирование).
Оптимальная остановка производится в тот момент времени, когда траектория
(t) в первый раз попадает в "область остановки", где
St (wj) = s' (щ).
Положение области остановки на плоскости (t, wi) определяется вместе с
отысканием урезанного условного риска St (wi). Он удовлетворяет уравнению
(10.21). Соответствующий данному случаю инфинитезимальный оператор
(10.22) был найден ранее (формула (9.44)).
Применяя теорию § 8.6, § 10.3 и § 10.4, мы можем констатировать, что,
если функция St (a>i) принадлежит пространству регулярности D0 при
некотором t=х, то St (wt) принадлежит пространству регулярности Д? для
меньших времен t<х. В "области продолжения", где St (wi) <5'(m>[), она
удовлетворяет уравнению
- = Y W\w22 + (vw2 - [И"!) 4-4^ + Л2щ2. (10.44)
241
На границе Г области остановки выполняются условия непрерывности функции
и ее первой производной:
St К) = В1Л + B12w2, dS'(Wl) = Вп - В12 (10.45)
OWi
при wx ? Г и BuWj < B2jWp
St К) = B21w, + B22w2; = Ba - B22 (10.46)
OWi
при и B1]wj > B2}Wj.
Кроме того, награницеГ } оф выполняется условие (см. (10.31))
~ wf2w^2 (w\ +) + (voy^ _ рдаГ) (ауГ) д^г giWr = q
(w\ = 1 - аф).
Решением уравнения (10.44) с описанными граничными условиями и
определенным "начальным" условием
<SyK)=/oH), (10.47)
одновременно определяются функция St (w\) и положение границ области
остановки.
Предыдущая << 1 .. 67 68 69 70 71 72 < 73 > 74 75 76 77 78 79 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed