Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 78

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 72 73 74 75 76 77 < 78 > 79 80 81 82 83 84 .. 97 >> Следующая

Выберем одно из полученных двух уравнений. Выше (стр. 252) отмечалось,
что в области ЕС = Н3 нет точек области Н4, т. е. в ней
- (vw2 - pay В + + Л2да2 > 0.
- (vw2 - pay В + A1w1 4- A2w2 + G > 0,
ибо G>0, так что уравнение (11.26) не может выполняться. Поэтому в
качестве условия, окончательно определяющего а>ь а>ь берем остающееся
равенство (11.25).
Сопоставляя (11.25) с (11.15) и учитывая непрерывность первой производной
(11.19), легко видеть, что указанное условие можно формулировать как
условие непрерывности второй производной в граничной точке:
Кроме того, если учесть (11.14), (11.20), данному условию можно придать
вид
ш j
Следовательно, вариация 6S°(a,1) обращается в нуль, если выполняется
уравнение
2 .2 ,2 ^250 , , , dS°
- a>i w2 - (wi)s. + (va>2 - рwi) (Щ)з. +
N dw{ dwi
4" A]W\ 4" A% W2 4" G 0
(11.25)
или уравнение
- (vw2 - p(r)i) В + Axwi + A2w2 4- G =0. (11.26)
Следовательно, в области Ec и на ее границе Wi
2 tmj2 (I - а)])2
GN
Дифференцируя (11.21), следовательно, получаем
у4 рА2_________________I
GN
[у - (р 4 v) w\р 2
или, предполагая, что vA, 4- рЛ2 > 0.
W* (1 - w[ )а
выбирается корень wlt лежащий между нулем и ---\
P + V !'
Вторая граница ш\ области За находится из уравнения
(11.22).
Расположение областей Еь Е2, 3е обычно является таким: область отсутствия
наблюдений Ei занимает крайнее правое положение, совпадая с отрезком (0,
w\), область наблюдения 32 является отрезком {w'v w\), а область
остановки- отрезком (w'lt 1). Пока апостериорная вероятность Wi (t)
принадлежит Si, ситуация является не опасной и наблюдения проводить
нецелесообразно. Область наблюдения (w'J является опасной зоной и в ней
является оправданным наблюдение за процессом. Величина W\(t) в
каждый момент времени является мерой опасности
ситуации; когда она достигает критического значения w J , следует
объявить тревогу, т. е. остановить процесс.
Описанный режим работы и расположение областей имеют место не при
всех, а лишь при нормальных значениях па-
раметров задачи. В некоторых случаях возможна другая картина. Так,
область Е2 может отсутствовать, а область Ei = = (0, wf) и Ес = (ojf, 1)
- непосредственно граничить друг с другом. Из (11.14), (11.16) нетрудно
получить условие
Д (11-28)
V - (р. + v) w\ J
определяющее границу w\ в этом случае.
Как показывает анализ функций (11.20), (11.21), такое расположение
областей имеет место, когда корень уравнения (11.27) больше корня
уравнения (11.28). В противоположном случае, когда w f > w ', т. е.
D' +----------------<В (D > 0),
V - (р. + v) wl
области имеют описанное выше обычное расположение.
§ 11.2. ЗАДАЧИ НА ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ МАРКОВСКИМ ПРОЦЕССОМ С ДВУМЯ
СОСТОЯНИЯМИ
Перейдем к задачам, в которых вероятностные характеристики основного
процесса зависят от выбираемого управления, так что наблюдатель-оператор,
принимая решение, влияет на ход процесса.
Начнем с конкретной задачи, до известной степени близкой к тем задачам о
возникновении разладки, которые были
257
В =
Aiwl + А2и)2
vw0
¦pay;
D' +
рассмотрены в § 10.6 и § 11.1. Процесс с двумя состояниями т]г = ± 1 и
наблюдаемый процесс пусть остаются без изменения. Наблюдение специальных
затрат не требует и не штрафуется. В отличие от предыдущих задач, в
опасной ситуации (вероятная разладка тр = 1) теперь пусть требуется не
останавливать весь процесс, а переходить к некоторому форсированному
режиму работы, вызывающему исчезновение разладки с повышенной
вероятностью. При таком форсированном режиме уравнение для априорных
вероятностей (9.35) заменяется на уравнение
Pi = - Р2 = - WPi + v>2-
где р'- р. = К > 0. Второй параметр для простоты будем полагать таким же,
что и раньше: v' = v.
Наблюдатель-оператор в каждый момент времени t имеет одну из двух
возможностей: работать при обычном режиме (щ = 0) или перейти к
форсированному режиму (ut= 1).
Форсированный режим естественно считать дорогостоящим и его цену включать
в функцию штрафа, полагая
с" = а,,+ Н- при
{ А2 при r\t = - 1.
Рекуррентное соотношение (8.39) вместо (11.9) теперь будет иметь вид
St-A (Wx) = min {(А1о)1 + A2w2) Д + о (Д) -f G Д" +
Ut-A
+ 7Va,,(";_a)S,}, (11.29)
где обозначено
<
Ди - J их dr.
t-л
Согласно (9.44) инфинитезимальный оператор процесса wx равен
dJS' 1 , д , 2 2 2 д*
^ - (vw2 - pn^) -- + -- Wl w2 ¦
[dt dw{ N dw2 '
если ut равна нулю в окрестности точки t, и
¦ [= [va'a - (р -f Я) Wj] -3- + - Wi wl 32
lit d wi N
если равна единице. Предполагая двукратную дифференцируемость функции
g(w1) = St(w1), имеем
258
Tf-A,t ("/-л) g - g +
- w2i tufa -f- (vc<ya - pte^) -^L
W 2 ^ V диъ
A -
Kw1 -- Au + о (Д),
[dw:
так что соотношение (11.29) принимает вид St-a (Wj) = St (wx) +
¦Wt Wo
N dvtfi
f- + (vw3 - ршх) -С +
' dull
+ Aywt + Агшг
A + min /g Au - 'kw,-^-Д"\ + о(Д).
0<Д"<Д I 1 дщ_ J
(11.30)
Следовательно, функция St (ац), принадлежащая пространству регулярности,
удовлетворяет уравнению
dSf 2 22 d^Sf . . , dSf . л . .
Предыдущая << 1 .. 72 73 74 75 76 77 < 78 > 79 80 81 82 83 84 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed