Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 92

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 86 87 88 89 90 91 < 92 > 93 94 95 96 .. 97 >> Следующая

при условии 0 С (2уС/г2А)г/* сделанное приближение является законным.
Вместо найденных границ областей остановки т г=
305
= 0/ь2 (а) в плоскости (т, а) можно рассматривать границы в плоскости (т,
t), поскольку вследствие первого уравнения (34) значение ст просто
зависит от t. Так, взяв начальное условие ст (0) = оо, при постоянном г
имеем
Поэтому вместо (45) уравнение границ остановки принимает вид
з
тг I
1 А г2а3
1
У2л С 2у.
*4 Ух
t
(46)
у 2л С 2г
Использованный метод применим и в том случае, когда функция штрафов С'
(х, и) имеет более общий вид, чем (35), например,
А \х\к при х>0, и = -1;
В\х\к при х<0, и = 1.
Тогда
где
С'(х, и) ¦
min s' (и | у*0) = min [Aak<р (- р), Вакф (р)],
U
(Л+Д)2
ф(р):
1
у 2л
j* r\ke
dt].
Дальнейшее рассмотрение аналогично предыдущему, и мы не будем его
проводить. Ограничимся приведением некоторых результатов, касающихся
симметричного случая А=В. Решение уравнения (43) с граничным условием
as
ар,
Аак
Зф
ар
при [l = f2
дает равенство
/. JC*
е 2 dx = - ак+2 е 2
2х С
аф
ар
P'-fi
служащее для определения /2. При выполнении условия ак+2 у 2хС/г2А имеем
/2 С 1. Поэтому, учитывая, что
- ~ук2!г(т + 1)пр"|'<<1.
ар
находим
В плоскости (т, t) этому выражению соответствуют границы
k-\-\ ?-f-3
i 2 j 2
Сравнение учтенного члена 2 хСг~2о~2 с тем членом уравнения (42), которым
мы пренебрегли, показывает, что условие применимости последнего
результата имеет вид /2 С 1.
Последние формулы переходят в формулы (45, 46), найденные раньше, если &
= 0, а при k = 1 имеет место случай, рассматривавшийся Михалевичем [1,2].
Приведенное решение непосредственно обобщается на те невальдовские
задачи, когда параметр х, подлежащий оценке, является переменным. В этом
случае сначала выводятся дифференциальные уравнения для производных
doldt, dp/dt (из теории условных марковских процессов), затем, как и
раньше, производится их апостериорное усреднение, что соответствует
переходу к вторичному апостериорному оператору типа (9.34). Когда
апостериорное распределение не является точно гауссовым, но локально
близко к таковому, может быть применена приближенная теория, учитывающая
то или иное конечное число параметров распределения.
4. Задача обнаружения разладки. Рассмотрим задачу, которая в несколько
другой (условной) постановке решалась А. Н. Колмогоровым и А. Н.
Ширяевым.
Пусть, как в задаче 2, yt = st (х) + |t, где lt - белый шум, a st (х) -
сигнал с двумя возможными значениями: st (*!) = = Si и st (х2) = s2.
Теперь, однако, будем предполагать, что параметр х = хи х2 не остается
постоянным, а именно возможны марковские переходы от одного значения к
другому. Переход от х2 к Xi будем интерпретировать как появление
"разладки". Если обратные переходы невозможны, то априорные вероятности
Р\ = Р (дц), р2 = Р (х2) удовлетворяют уравнениям
где р - параметр, описывающий частоту появления "разладки". Апостериорные
вероятности ац = W (xj), w2 = 1 -Wi наличия или отсутствия разладки
определяются уравнением:
dpi
(47>
dt
dw*
dt
(см. (6.43), (11.5)) несколько более общим, чем (10).
Требуется определить, имеется ли разладка, и прекратить процесс
наблюдения, если она есть. При этом берется
штраф А в единицу времени за необнаружение "разладки" и штраф В за ложную
тревогу.
Выбирая матрицы штрафов
Ctt(Xi) = A", Ctt (х2) = 0; (49)
C'tt(Xl) = 0; Ctt(x2) = B,
мы можем применить к данной задаче общую теорию. Матрицы (49) не зависят
от и, так что решений dtt, d'tt (в дополнение к б1 = D (у)) принимать не
приходится.
Уравнение (10.12) приобретает вид
5 (w1, t) = min {5(1 - tey), Aw1 A 4- MpsS(w1 +
+ Дид" t -f- Д)} -f- о(Д),
так как st = A wy, = В (1 - w,) в соответствии с (10.11). Используя (48),
после выкладок, аналогичных (14) - (16), получаем уравнение
- -f- = Awx + р (1 - ш,) + Н К) -Щ-, (50)
dt dw-L дш2
(н (w) = -( -1 ~'52)2 W2 (1 - W)2j, справедливое при
S(wlf t) <5(1 - ад),
т. е. в пределах области наблюдения Wi<f(t). На границе W\=f(t), которая
теперь лишь одна, выполняется, как и раньше, условие непрерывности
функции и ее производной:
S(f, 0 = 5(1-/);
J?-(f,t) = -B. (51)
дщ
В стационарном случае граничная функция обращается в постоянную: f (t) =
а, а (50) переходит в уравнение:
d2S , Р(1 - ад) dS Aw! _ q •
dw] H t(r)i) dwi H{wi)
При решении этого уравнения и определении а необходимо, в дополнение к
(51), учитывать граничное условие
= 0 при w1 = 0. (53)
dwi
Для доказательства этого условия заметим, что в противном случае, как
легко получить интегрированием из (52),
308
производная dS/dwi и функция S (tOi) принимала бы вблизи нуля
неограниченные значения, что лишено смысла. При этом была бы справедлива
асимптотическая формула
dS , { 2ху 1 'I
-- = const ехр -------------------------!------------------------у.
dwi { (S! - S2 f Wl I
Решая (52) с указанным граничным условием (53), находим
Wx
dS , ч л С q(wi)-cp(w) w
-(w1) = -A\q --dw, (54)
1 J и (tt1)
о
и получаем формулу для определения границы а:
Предыдущая << 1 .. 86 87 88 89 90 91 < 92 > 93 94 95 96 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed