booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 62

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf

Предыдущая << 1 .. 56 57 58 59 60 61 < 62 > 63 64 65 66 67 68 .. 97 >> Следующая

для данной задачи (по несколько иному критерию) было проде-
200
лано Кульманом и Стратоновичем в работе [1], где приводятся родственные
результаты.
В § 9.5 рассматривается линейная фильтрация как частный случай
нелинейной. Используемый здесь метод позволяет избегать решения уравнения
Винера-Хопфа, т. е. является обычно более удобным, чем метод теории
Винера. Приводимые в § 9.5 уравнения оптимальной линейной фильтрации были
получены автором в [7]. Они совершенно не чувствительны к изменению
длительности интервала наблюдения, будучи одинаково применимы к конечному
и полубеско-нечному интервалу, к стационарному и нестационарному
процессу. Эквивалентные им уравнения позже были выведены Калманом и Бьюси
[1] (уравнение [IV]).
§ 9.1. ПОСТАНОВКА ЗАДАЧИ
Проблему оптимальной нелинейной фильтрации можно ставить как вырожденный
частный случай общей задачи на оптимальное управление, сформулированной в
предыдущей главе.
Пусть управление Ut (в данном аспекте более подходящим является термин
"оценка"), соответствующее моменту t, представляет собой функцию {и(Х,
Tt} на некотором подмножестве TtC.T. Функции штрафов пусть имеют вид
с(ю) = ^ dt ^ Ctt (utt, zx)Ft(dr);
Т Tt
(9.1)
с* (ю) = j1 ds ^ Cst (usx, zx) Fs (dx).
skt Ts
Здесь Ft(A) (при фиксированном t) есть мера на борелевских подмножествах
из Tt } т; Ctx(utt, zt) - функция от utt и гт, т. е, '^/тй'т-измеримая ю-
функция. Условия измеримости и интегрируемости по t и т считаем
выполненными. В итоге с*(ш)-(^(ш) является - измеримой функцией.
Предполагается, что вероятности Р (• j и) = Р (•) основного процесса { zt
(со)} не зависят от управления (оценки) и (<А1^Э35Ь, t?T). Наблюдаемый
процесс { t)t (ю) } =
= { yt (zt(о))) } также не зависит от оценки и зависит от значения Zt в
тот же момент времени. Наконец, предполагается, что оценки utx,
соответствующие различным / и т, могут выбираться независимо друг от
друга (несвязанное управление {utx} как функция двух переменных).
При указанных предположениях минимизацию условного-среднего риска можно
проводить независимо для непересе-кающихся прямоугольников в плоскости t,
х и даже для
201
каждой точки (/, т). При этом решающие меры р ^+1 (dm ?
^ '
6 U \k+11 еи!кУ','к) Для ступенчатого индекса cp'v теряют зависимость от
и'ак\
р'к+1 (du 1^+11<ц*куЧ) = рС+1 (7"/и-11 у* к), (9.2)
В самом деле, записывая рекуррентное соотношение (8.38) для k = N, имеем
StN (Ф У*") = f (с ~ <?N)р (d(r) IФУФ. (9.3)
Ввиду того что
р (dm ? Жь | фу^) (= Р (dm I У*"))
не зависит от и, подлежащее минимизации выражение в (9.3) не зависит от
uiN. Поэтому p*v и SiN (= StN (У(r)1*)) не зависят от
uiN. Учитывая это, второе соотношение (8.38) для k = N - 1 записываем в
виде
S,w_,= min [^ф-с^)Щ^Жь\У^.)] +
Jn I <Ц1Ы-\ <y*N-l *N-1
ибо
P (dm ? SEb I Ф y'PN~i) = p (dm | y*N-1).
-Отсюда видно, что р<$_, и StN_l не зависят от ulN~l. Продолжая
рассмотрение аналогичным образом, можно убедиться, что все решающие меры
(9.2) и урезанные риски S(k не зависят от
¦и'аь.
Из вышеизложенного следует, что оптимальная решающая мера (9.2)
отыскивается в силу (9.1) минимизацией выражения
:202
Итоговый средний риск для выбранного ступенчатого индекса можно записать
Яф* = Se = VMp>*(i?*).'
k к
Перейдем к рассмотрению непрерывного индекса ф (t) - t. Независимость
результата от специального способа предельного перехода N-+ со, ф^-^-ф
аргументируется проверкой выполнения условия регулярности (8.26)- Оно в
данном случае принимает вид
Рф- (yf) - Рф~Л (yf) - М [PU (yfA) | yf] = о (1) Д (ф' = t - Д - сД, 0-
<с<;оо).
Учитывая определение р/Н-1, видим, что это условие выполня-
k
ется, если
min М [Сп (ип, zx) | yf] - М {min М \Ctx (ut-., zx) | yf&] | yf] -* О
utx utx
при t - Д - ф' -* 0 (т ? [/ - Д, t]). Последнее соотношение справедливо,
поскольку
м [Cft (ип, zx) | yf ] - M [Ctx (utx, zx) | yfA] -* 0 (n. H.)
при t-Д - ф'-"0. Тем самым регулярность проверена. Кроме того,
М [Ctx {Щх, Zx) | yfAI - М [Ctx (Щх, Zx)\ yi ]-* 0 (n. H.)
при Д -"0, поэтому в процессе предельного перехода экстремальная функция
{и^х], соответствующая ф'у и определяемая из условий /¦/*+* учак) =
рfk+1{yik), Дает риск, стремящийся к
lk k К
риску оптимального управления, определяемого минимизацией min М [Сп (utx>
Zx)\ yf-
U
tx
Если для этого оптимального управления выполняются условия измеримости и
интегрируемости по t и т (см. (9.1)), то оно, действительно,
соответствует минимальному итоговому риску.
Итак, оптимальная оценка utx отыскивается в результате минимизации
выражения
stx {Щх I У*а) = м [Ctx {Щх, Zx) | yf = j Ctx {Utx, zx) P {dzx \ t/a).
(9.4)
203
Поскольку функция Ctx (щт, гх) задается условиями задачи, для нахождения
алгоритма dtx (у*а ) = Щх оптимальной фильтрации требуется знать, как
апостериорные вероятности Р (dzx\у*а) выражаются через наблюденный
процесс. Этот вопрос для марковского процесса Zt уже исследовался в
главах 5-7. Здесь мы применим полученные там результаты.
В некоторых важных частных случаях в качестве меры Ft (А) можно брать

Предыдущая << 1 .. 56 57 58 59 60 61 < 62 > 63 64 65 66 67 68 .. 97 >> Следующая