booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 46

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf

Предыдущая << 1 .. 40 41 42 43 44 45 < 46 > 47 48 49 50 51 52 .. 97 >> Следующая

инфинитезимальной коммутативности операции условного усреднения и
минимизации.
Для теории, излагаемой в настоящей главе, характерно то, что явно можно
не рассматривать решающие правила (стратегии), а концентрировать внимание
непосредственно на оптимальных стратегиях. Предполагается, что условиями
задачи никаких ограничений на выбор стратегий не налагается (не следует
путать эти ограничения с ограничениями, наложенными на функции
управления, учитываемыми теорией).
Другой характерной особенностью теории является отсутствие каких-либо
требований положительности или выпуклости, накладываемых на функции
штрафов. Не исключено, что для получения каких-либо других специальных
результатов подобные требования могут понадобиться.
Затронем вопрос о рандомизированных решениях. В данной теории
рандомизация оказывается не очень существенной. Если нижняя грань
достигается в одной или нескольких точках, то с одинаковым успехом может
быть выбрана любая из этих точек, а также указано любое рандомизированное
156
правило выбора между ними. Поэтому среди оптимальных решений существует
равноценное нерандомизированное решение. Если нижняя грань не достигается
на рассматриваемом множестве, то может 'быть выбрано сколь угодно близкое
к оптимальному нерандомизированное решение, которое не хуже
рандомизированного. Это положение типично для теории. Для удобства и
общности изложения в тексте этой тлавы будут, однако, рассматриваться
рандомизированные решения, причем будет выбран один специальный
согласованный способ рандомизации, который порождается некоторой
дополнительной мерой - "фундаментом рандомизации" v(-)-Нужно иметь в
виду, что качество решения (величина среднего риска) не зависит от выбора
фундамента рандомизации. Оно остается таким же, даже если ограничиться
нерандомизированными решениями.
Рандомизация становится существенной при обобщении теории на игровую
ситуацию (§ 8.8). Распространение теории на случай антагонистических игр
не связано с принципиальными трудностями и не требует привлечения новых
идей. Единственное изменение в том, что одно управление заменяется на
пару, а условная минимизация - на условный ми-нимакс. В итоге получаем
далеко идущее развитие одного раздела теории игр.
Для фактического решения задач оптимального управления важным является
понятие достаточных координат, которое позволяет переходить от
абстрактного (функционального) пространства к конечномерному
пространству, рассматривая в нем функции и рекуррентные преобразования.
Это понятие является видоизменением (применительно к теории оптимального
управления) известного в математической статистике понятия достаточных
статистик (см., например, Ван-дер-Варден [1]). Важность этого понятия для
развития теории динамического программирования была отмечена Веллманом и
Калабой [1]. Общее определение достаточных координат дано автором в
работах [16, 17, 14].
В случае, когда основным управляемым процессом является процесс Маркова,
среди достаточных координат важнейшими являются апостериорные вероятности
или заменяющие их параметры, т. е. "вторичный апостериорный процесс".
Поэтому для таких задач большую роль играет теория условных марковских
процессов. Она дает аналитическую основу для записи и решения
рекуррентных уравнений, т. е. основных уравнений теории оптимального
управления. Вид этих уравнений в основной своей части определяется
"вторичным" инфинитезимальным оператором, который рассматривался выше (§
5.6 и § 6.4).
В некоторых частных случаях "вторичный апостериорный процесс"
представляет собой диффузионный процесс, причем
157
его параметры и инфинитезимальный оператор зависят от управления. В этих
случаях определение риска (как функции координат указанного диффузионного
процесса) производится (при обратном течении времени) совместно с его
минимизацией, т. е. с выбором оптимального управления. Такие * задачи
рассматривались как самостоятельные задачи Дынки-ным [4] и Гирсановым
[2]. Диффузионный процесс для них являлся исходным, тогда как для нас
этот процесс является вторичным, представляя собой достаточные координаты
(апостериорные вероятности) некоторой более сложной задачи на оптимальное
управление с неполным наблюдением. Попутно отметим, что замена функции
штрафов, рекомендуемая в указанной работе Дынкина, обычно непригодна в
случае необрывающйхся процессов (так как нарушается условие Мжф^<со).
Поэтому результаты этой работы неприменимы непосредственно даже к
простейшим задачам последовательного анализа Вальда.
Ряд результатов по условным марковским процессам в применении к
нелинейной фильтрации был доложен автором [3] на VI Всесоюзном совещании
по теории вероятностей и математической статистике (Вильнюс, 1960 г.) и
на I конгрессе Международной федерации по автоматическому управлению
(ИФАК) (Москва, 1960 г.). После этого автором велась работа по применению
теории к задачам радиотехнического характера [6, 7, 10-12] и по

Предыдущая << 1 .. 40 41 42 43 44 45 < 46 > 47 48 49 50 51 52 .. 97 >> Следующая