booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 59

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf

Предыдущая << 1 .. 53 54 55 56 57 58 < 59 > 60 61 62 63 64 65 .. 97 >> Следующая

в качестве достаточных координат х в формулах
(8.43), (8.47) - (8.50) следует брать Wt. В соответствии с определением
оператора djg/dt имеем
(здесь T.,t{u)-"вторичный" оператор). Следовательно, если сходимость
(8.50) имеет место, то
Предполагая, что условие (8.49) выполняется и что St ? flD (и), получаем
из (8.47) в результате предельного перехода "
4. Рассмотрим для иллюстрации сказанного один конкретный случай. Пусть
имеется комбинированный марковский процесс {2t\ - { xt, yt(xt) },
рассмотренный в § 6.2-6.4, представляющий собой набор диффузионных
процессов
Tt_A'f(u)g - g
d^(t ' u) g при A 0, g ? D (и)
at
A
Т'к'к+гМ-\+г-\+1
-~ -> ' St ПРИ **+i *> tk-**,
at
Sik -h> St(: D (и).
tk+i - h
dSt(W)
= mm
u\W
|M [Ct | u,W] St (U7)|, (8.66)
dt
т. e.
913
{"/((а), а=],..., т] и марковские переходы Xt - a между ними. Наблюдаются
реализации диффузионных процессов. Чтобы удовлетворить требованиям 8.9.А-
Г, предположим, что параметры аР(а, у, t, и), у, t, и), рар (t, и)
комбиниро-
ванного процесса в каждый момент времени t зависят лишь от мгновенного
значения щ (в тот же момент времени) процесса управления { ut, tdT } (т.
е. являются %-измеримыми функциями). Пусть, далее,
где Ст (ит, гх) есть 2/т2Гт-измеримая функция.
Тогда 8.9.Д также будет выполнено, так как с1-cs будет s-измеримой (при
этом в(r)*-ЧЦЖ*). В соответствии с теоремой 8.10 достаточными координатами
в данном случае будут составляющие вторичного апостериорного процесса,
рассмотренного в § 6.4, т. е. переменные (wa, у9). Урезанный условный
риск будет функцией этих переменных: St(wa, у9) Чтобы вывести уравнение
альтернатив в данном случае, остается лишь подставить (6.41) в (8.66). В
итоге будем иметь
Здесь минимизация по и превратилась в минимизацию по щ, так как выражение
в фигурных скобках оказалось зависящим лишь от этого значения.
Из этого примера видно, что результаты теории условных марковских
процессов, полученные в части II, находят немедленное применение в
изложенной здесь теории оптимального управления.
В заключение этой главы затронем вопрос об обобщении изложенной общей
теории применительно к теории игр. Как и при неигровой постановке,
основным обязательным предположением теории остается требование, чтобы
информация, которой располагают игроки, не убывала с течением времени.
1. Обобщение на случай антагонистических игр (с совпадающей
информацией) является настолько прямым и естествен-
e J* Сх (Цх> 2т)
s
§ 8.8. ОБОБЩЕНИЕ НА ТЕОРИЮ ИГР
194
ным, что нет надобности повторять для него изложенные раньше
формулировки. Поэтому мы сконцентрируем внимание на отличиях от
неигрового случая.
Вместо одного управления и = теперь следует брать пару ы= (и, и).
Управление и находится в распоряжении одного игрока, и - второго. Те
условия измеримости, которые раньше относились к одному управлению,
теперь относятся к паре.
Для ступенчатого индекса (t) со скачками в точках
tN} решающая мера распадается на произведение
Us (dut dul | ul, yfs)) = (du\ | usa, yli$)) (dul [ ul, yfs))
(S = tfc, t tk-\-1),
т. e.
1*1 (ABI wyvb)) = (Л! usyv{s)) P* (B10"(s)),
Atul, Biul
В формуле (8.12), вместо условной минимизации, теперь нужно брать
условный (при условии \сЦ1ъЩ($к) минимакс
R"n {clt^y4'k) = min шах Г R4n (^+'?/ф*) |4*+> (dm |
Ф Пн S* J (8.68)
Соотношения монотонности, указанные в п. 2 § 8.2, и определение 8.3
теряют свое значение и теоремы 8.1-8.5 оказываются несправедливыми.
Некоторому изменению подвергается также § 8.3, однако дальнейшие
параграфы не требуют существенных изменений. Понятие регулярности можно
сформулировать без ссылки на множество определения оптимального риска как
требование, чтобы всякие всюду плотные в Т множества приводили к одному и
тому же оптимальному риску. Признаки регулярности 8.4.А, 6.4.Б, 8.8.А-Б
остаются без изменения.
Сохраняет свое значение и понятие достаточных координат. Для урезанных
условных рисков уравнение (8.68) принимает вид
Stk (х) = min max f М [ctk+l - с* + S. (xtk+l) \ и\к+\ xtk = x] x
X ь I x^k (1 x).
Оно служит не только для поэтапного определения урезан-ного_риска, но и
для отыскания оптимальных решающих мер Pfe, ра. Решение для непрерывного
индекса получается предельным переходом от ступенчатых индексов к
непрерывному. Сохраняет значение и другой материал из § 8.6 и § 8.7.
195
Как известно, в теории антагонистических игр рандомизация является
существенной, т. е. приносит определенную выгоду. Однако в
последовательной по времени форме теории, охарактеризованной в предыдущем
пункте, появляются некоторые дополнительные основания для исчезновения
существенной рандомизации. В некоторых задачах рандомизация, будучи
существенной для допредельных ступенчатых индексов, теряет существенность
при предельном переходе к непрерывному индексу. Другими словами, если
заменить мини-макс в (8.68) на последовательное взятие максимума и
минимума
RqX {<И!кСУ'1>к) = min шах М [R^n {'Ujk+iy'tk+l)| си!к+'Уч'к]

Предыдущая << 1 .. 53 54 55 56 57 58 < 59 > 60 61 62 63 64 65 .. 97 >> Следующая