Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 69

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 63 64 65 66 67 68 < 69 > 70 71 72 73 74 75 .. 97 >> Следующая

результате находится функция риска и границы области остановки при
различных значениях параметров задачи. Поскольку данная задача является
обобщением задачи Вальда, то полученные результаты, если запретить
априорные изменения состоя-
224
ния, переходят в соответствующие результаты Вальда и Ми-халевича и
результаты Дополнения.
Рассмотренная в § 10.6 задача, кроме того, в другом частном случае (когда
имеются односторонние изменения состояния) превращается в бейесовский
вариант задачи Колмогорова и Ширяева, доложенный ими на VI Всесоюзном
совещании по теории вероятностей и математической статистике (Вильнюс,
1960 г.). Небейесовское решение этой задачи, полученное без использования
рекуррентных дифференциальных уравнений для рисков, опубликовано в
работах Ширяева [1-3]. Бейесовское решение (средний риск и границы
областей остановки, как функции параметров задачи) было найдено
Стратоновичем [15]. Оно изложено в п. 4 Дополнения. Эти результаты,
естественно, получаются как частные случаи результатов § 10.6.
§ 10.1. ПОСТАНОВКА ЗАДАЧИ. ФУНКЦИЯ ШТРАФОВ
Обозначим через'& € [а, Ь\ момент прекращения процесса. Пусть функция
штрафов имеет вид
Здесь Ctx(utx, zT), Ft (dx) имеют тот же смысл, что и в формуле (9.1).
Функция C'tx{u'tx, zx) и мера F't(dx) имеют аналогичный смысл: C'tx(u'ix,
гх) есть функция от u'ix и zx, К'(dt) есть мера на борелевских множествах
некоторого (вообще зависящего от '&) подмножества интервала [а, ¦&].
Условия измеримости и интегрируемости предполагаются выполненными.
Оценочные функции управления и'йх предполагаем
несвязанными (§ 8.1), т. е. предполагаем независимый выбор оценок. Чтобы
привести данную задачу к той общей задаче, которая была сформулирована в
§ 8.1, вместо момента времени 0 будем рассматривать ступенчатую функцию
как компоненту управления ut. Функцию штрафов (10.1), очевидно, при этом
можно записать
с (со) = ^ dt ut j Сп (utx, zx) Ft (dx) - j dut j C'tx (u'tx, zx) F'(
(dx).
Установим соответствие управления в данной задаче с понятием управления §
8.1. Если управление считать продол-
(10.2)
т
г
(10.3)
225
женным на интервал {ft, b\, то, очевидно, можно полагать
ut, щ. при ut = 1, ut+о = 1;
ut, щ. при ut - 1, "j+о = 0; (Ю-4)
ut при ut - 0.
Здесь и в дальнейшем точка записана вместо второго индекса г и
обозначает, что он пробегает всевозможные значения. Такое управление
является связанным. Если ur= 1, то управление и * (r<s) может быть или
функцией
{",., ti [Г, S]}
(когда процесс не обрывается на [г, s]), или тройкой ft, {ut. ,ti[r,
ft)}, и'ь.
(когда процесс обрывается в момент ftG [л, s]). Если же иг - 0, то
никакой свободы выбора управления уже не остается. Обращаясь к
определению 8.1, видим, что данный процесс управления есть марковски
связанный процесс, и к тому же является простым вырожденным случаем
такового. Роль марковской координаты играет функция (10.2): ut = ut.
В выражения (10.1), (10.3) входит основной процесс {zt). Условия,
наложенные на z *, определяют а-алгебру которая предполагается не
зависящей от и и z 3. Фиксация управления usa задает вероятности Р (Л |
и*) событий Л(Е Л3 (и3) , связанных с этим процессом. Здесь можно
подходить двумя способами. Можно представить себе, что процесс {zt}
действительно обрывается, и считать, что Л3-%?(tm)'п <Si 6). Иначе же можно
считать, что процесс {zt\ не обрывается, но прекращается всякий контакт с
ним. Тогда можно полагать cAsZDSb, как это было в гл. 9, и снять
ограничения т<Л и r<ft в формуле (10.1). Остановимся на этом варианте, в
нем события AGS'i(^>ft) имеют гипотетический характер. Меру считаем не
зависящей от управления: Р(Л | иа ) = = Р(Л), Л€ Жь. Отсюда следует, что
в этой главе не рассматриваются задачи, относящиеся к динамическому
программированию, в которых выбор управления существенно влияет на ход
основного процесса.
Наблюдаемый процесс {yt} считаем зависящим от значения основного процесса
в тот же момент времени: yt = \)t (%t), так что У* аЖ1. Берем практически
наиболее интересный индекс решения ср (t) - t.
226
§ 10.2. ДОСТАТОЧНЫЕ КООРДИНАТЫ И УСЛОВНЫЕ РИСКИ
В соответствии с определением 8.5 кроме функции штрафа (10.3) будем
рассматривать функции "прошлых штрафов"
t __ t _
с* ((c)) = J dtUf J" Ctx (у-txi Zx) Ft (fFF) j" dut J" ^t) Ff (dx)
a a
(10.5)
(cft(co) =c( со)).
Введем достаточные координаты данной задачи.
Основной процесс {zt} будем предполагать марковским. Поэтому к
исследуемой задаче, учитывая, что управление (10.4) является марковски
связанным, можно применить теорию, развитую в п. 2 § 8.7. Проверим
выполнение условий 8.10. А-Д. Выполнение (8.64) отмечалось ранее. Кроме
того, указывалось, что %?\(и, zsa) не зависит от и, zsa. Это является
более сильным условием, нежели (8.65). Поскольку мера Р на &ь не зависит
от управления, марковское условие
Р(Л|2Г2) = Р(А|2д,
также является более сильным, что 8.10.В. Условие 8.10.Г выполняется,
поскольку наблюдаемый процесс yt = tjt (zt) не зависит от и. Остается
Предыдущая << 1 .. 63 64 65 66 67 68 < 69 > 70 71 72 73 74 75 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed