Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 45

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 39 40 41 42 43 44 < 45 > 46 47 48 49 50 51 .. 97 >> Следующая

элементы не зависят от прочих (ненаблюдаемых) координат. Поэтому
дальнейшего расширения наблюдаемого процесса проводить не следует.
Остается лишь одна ненаблюдаемая координата Z\ = r я апостериорные
операторы, следовательно, будут соответствовать однокомпонентному
процессу.
Применение теоремы 7.2 и формулы (7.4) к двухкомпонентному наблюдаемому
процессу { р, у3 } дает следующее выражение для апостериорного
инфинитезимального оператора
1 р -t/'d*p + U'+ у
dL* = -
D
dt + - d* p
dr
+
• dt -
dr2
(7.29)
Далее, в соответствии с (7.16) имеем
dL(t) = dF+ U'+ -^dt +
Р t Ar\ I P .IV D r2~P2dj 1 C
+ f(dp+fU'dt)-^-r-r3 + Ад!-р
2 r* dr*
dr
+
(7.30)
153.
Следовательно, уравнение (7.19) для апостериорной плотности распределения
вероятностей wt(r) принимает вид
+ ~ (dp+ dt) - R-r^=-^dt~\^ + [dF - Mps dF) wt.
Любопытно отметить, что, если бы наблюдались оба сферических угла, то
статистическая задача была бы вырожденной, так как по ним можно было бы
безошибочно определить радиус r(t). Допустимое множество свелось бы к
единственной точке.
В заключение этой главы отметим один частный случай, при котором
полученные здесь результаты перекликаются с результатами гл. 6.
Предположим, что в формулах § 7.1 обращается в нуль перекрестные
дисперсионные коэффициенты: bap = 0 и Да, Ьщз не зависят от г/р. Тогда из
(7.4) имеем
dL* = cdt + cip. bp-'a- d"ya- + (aa + -i-6afJ-j^j^jdt.
(7.31)
Ho
(a"^t + T6ap dxadxp ) dt
есть не что иное, как априорный инфинитезимальный оператор dLpr в
пространстве ЯтЭх. Поэтому формула (7.31) совпадает с (6.47), (6.48),
если отождествить между собой
<Х ИХ (~{xi,..., Xm}^Rm).
Часть III
ПРИМЕНЕНИЕ ТЕОРИИ УСЛОВНЫХ МАРКОВСКИХ ПРОЦЕССОВ К ТЕОРИИ ОПТИМАЛЬНОГО
УПРАВЛЕНИЯ
Глава 8
НЕКОТОРЫЕ ОБЩИЕ РЕЗУЛЬТАТЫ ТЕОРИИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
Прежде чем рассматривать применение теории условных марковских процессов,
изложим ряд положений общей теории оптимального управления. Эта теория не
является безусловно необходимой для понимания конкретных результатов по
решаемым в дальнейшем частным задачам. Однако она позволяет рассматривать
разнообразные задачи, в которых требуется принимать те или иные
оптимальные решения с единой точки зрения. Конечно, приводимая здесь
общая постановка задачи на оптимальное управление, несмотря на ее
общность, является не самой общей. К ее ограничениям относится
бейесовский подход, а также условие, чтобы информация, находящаяся в
распоряжении наблюдателя-оператора, принимающего решения, не убывала с
течением времени. Все конкретные примеры, рассматриваемые в дальнейшем,
являются частными случаями указанной общей задачи, хотя возможны и
интересны также примеры, выходящие за рамки данной теории. Небейесовские
задачи можно решать, как известно, путем сведения их к бейесовским.
Задачи с убывающей информацией в настоящее время мало изучены, и мы на
них не будем останавливаться.
Существо теории заключается в том, что рассматривается цепочка
чередующихся условных минимизаций и усреднений в едином абстрактном
измеримом пространстве, в котором определено семейство монотонных ст-
алгебр. Чередующиеся минимизации и усреднения использовались автором в
работе [13], а монотонные ст-алгебры, связанные с теорией оптимального
управления, - в работе [14]. Указанная цепочка минимизаций и усреднений и
соответствующие ей рекуррентные преобразования воплощают в
действительность в самом
155
абстрактном виде известный "принцип оптимальности" Беллмана [1]. Однако
если в работах Веллмана рассматривается и подвергается минимизациям
функция конечного числа каких-то фазовых переменных, то здесь имеем дело
с функцией, определенной в абстрактном, в общем случае функциональном
пространстве. Переход к конечному числу переменных осуществляется в
дальнейших параграфах (начиная с § 8.5) в результате введения достаточных
координат.
При описанном подходе для получения основных результатов не требуется не
только метрических понятий, но даже и введения топологии в исходном
измеримом пространстве.
Кроме Беллмана, рекуррентные соотношения для рисков применительно к
статистическим задачам (преимущественна типа последовательного анализа)
рассматривали: Вальд и Вольфовиц [1], Блеквелл и Гиршик [1], Михалевич
[2]. Последний после перехода к пределу исследовал также случай
непрерывного времени, когда рекуррентные соотношения обращаются в
дифференциальные уравнения.
Большинство работ по динамическому программированию соответствует
дискретному времени. В то же время есть ряд работ (Беллман [1], Бедлман,
Гликсберг, Гросс [1], Стратоно-вич и Шмальгаузен [1], Стратонович [18],
[19] и др.), в которых рассматриваются рекуррентные соотношения
(дифференциальные уравнения) для непрерывного времени. Соответствующий
предельный переход совершается без специального обоснования.
Обоснование перехода к непрерывному времени может быть произведено в
рамках общей теории, излагаемой в гл. 8.
Исследование этих вопросов оказывается тесно связанным с исследованием
Предыдущая << 1 .. 39 40 41 42 43 44 < 45 > 46 47 48 49 50 51 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed