booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 75

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf

Предыдущая << 1 .. 69 70 71 72 73 74 < 75 > 76 77 78 79 80 81 .. 97 >> Следующая

главах: будет предполагаться что наблюдаемый или управляемый процесс
существенно зависит от выбираемого управления. В § 11.1 решается задача
на выбор оптимального наблюдения. Предполагается, что наблюдение процесса
связано с определенными затратами, так что оно окупается только в опасной
ситуации. Теория позволяет ответить на вопрос, когда производить
наблюдение и когда нет.
Задачи § 11.2, 11.3 состоят в выборе оптимального управления. Они
относятся к динамическому программированию при непрерывном времени.
Подобные задачи'"'часто возникают в теории автоматического регулирования
при наличии помех. Ряд близких задач рассматривался в работах Стратоно-
вича [18, 19], Стратоновича и Шмальгаузена [1], Шмальгау-зена [1].
Приведенные задачи иллюстрируют применение общих методов теории
оптимального управления, основывающейся на теории условных марковских
процессов. Поле приложения этих методов весьма широко. Обязательное
условие, чтобы основной процесс был марковским, является не очень
ограничительным. В самом деле, увеличением числа компонент марковского
процесса можно добиться того, чтобы этот процесс аппроксимировал всякий
процесс с любой наперед заданной точностью. Это, в сущности, снимает
какие-либо принципиальные границы области применения методов.
Правда, техническое решение задач при большом числе достаточных координат
становится очень трудоемким, и это ставит практические границы полю
применений. В свете сказанного ясно, что главным явлением, с которым
приходится иметь дело при рассмотрении все более сложных задач, является
увеличение числа достаточных координат. Такое увеличение рассмотрено на
ряде примеров в § 11.4.
246
§ 11.1. ЗАДАЧИ НА ОПТИМАЛЬНОЕ НАБЛЮДЕНИЕ
В главе 9, посвященной выбору оптимальных оценок, ход основного процесса
zt, а также наблюдаемого процесса г/г = =yt (zt) предполагался не
зависящим от принимаемых решений. В терминах а-алгебр, введенных в § 8.1,
это выражается тем, что v?((u) не зависит от гг и при всех /€7' содержит
STь; а-алгебра наблюдения У1 {и) также не зависит от гг и принадлежит
Переход к более общему случаю будет произведен, если допустить
зависимость наблюдаемого процесса от управления: г/г = г/г (zt, гг) или
же зависимость вероятностей основного процесса от управления. Первый
случай, когда г/( (гг, гг) существенно зависит от гг, но , t<zT, можно
назвать
случаем управляемого наблюдения. Наблюдатель-оператор здесь может
выбирать оптимальный способ наблюдения, но не может влиять на ход
основного процесса: Р (Л | гг) =
= р (л),л<г^ь.
Второй случай, когда наблюдатель-оператор может существенно влиять на
вероятности (а может быть, даже и на фазовое пространство) основного
процесса, т. е. когда *А( (иа ) включает S?((u), но существенно беднее,
чем (гг), t'>t, относится к динамическому программированию.
Общая теория, развитая в гл. 8, охватывает любой из этих случаев. В
настоящей главе будут рассмотрены как задачи на выбор оптимального
наблюдения, так и задачи динамического программирования.
Изложенные в гл. 10 задачи на оптимальное прекращение процесса занимают
некоторое промежуточное положение между задачами на выбор оптимальных
оценок и задачами на выбор оптимального наблюдения или управления. Теория
гл. 10 выходит за рамки оптимальной фильтрации, поскольку наблюдатель-
оператор в состоянии влиять на ход процесса. Но это влияние носит весьма
вырожденный, примитивный характер: вмешательство наблюдателя-оператора
может лишь прекратить основной процесс или процесс наблюдения. В задачах,
которые будут рассмотрены в дальнейшем, вмешательство наблюдателя-
оператора будет более содержательным.
1. Пусть {тр}-марковский процесс с двумя состояниями, о котором была
речь в § 9.6 и § 10.6. Значение тр = 1 можно интерпретировать как наличие
разладки в некотором производственном процессе, в момент t, а значение тр
= - 1 - как ее отсутствие. Разладка может появляться и исчезать, это
описывается коэффициентами v, ц в уравнении (9.35) для априорных
вероятностей. Пусть, как и ранее, наблюдаемый процесс имеет вид (9.36),
но теперь наблюдатель-оператор решает, нужно ли производить наблюдение
или нет. Введем функцию управления щ, связанную с этим решением: ггг = 1,
247
если наблюдатель в момент времени t ведет наблюдение, и ut = 0, если нет.
Целесообразность отключения наблюдения (при определенных условиях)
объясняем тем, что наблюдение является дорогостоящим, т. е. связано с
некоторыми затратами. Чтобы отметить это, дополним штрафы (10.43)
зависящим от ut членом:
= ( Л, при ть = 1;
C,# = Gu,+ л i (11Л>
н ' I Л2 при ti, = - 1.
При наличии разладки продолжать производственный процесс экономически
невыгодно. Поэтому задачей наблюдателя-оператора является остановка
процесса при соответствующих условиях. В этом отношении данная задача
аналогична тем задачам, которые были рассмотрены в гл. 10, и мы будем
придерживаться введенных там понятий и обозначений.
Пусть в момент остановки t = О1 штрафуется лишь неоправданная (ошибочная)

Предыдущая << 1 .. 69 70 71 72 73 74 < 75 > 76 77 78 79 80 81 .. 97 >> Следующая