Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 93

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 87 88 89 90 91 92 < 93 > 94 95 96 .. 97 >> Следующая

р ^W)_"L_dw = А. (55)
J H(w) A V
о
Выражения, получаемые вычислением интегралов (54), (55), не стремятся при
|3 0 к конечным пределам, так как
W
интеграл dw расходится в нижнем пределе. Однако
о
/ л . п \2
при малых Р < -У- роль множителя ехр [ф (wi) -ф (w)\
сводится по существу к исключению малой области вблизи нуля. Вводя малую
величину 1, можно опустить в (54), (55) экспоненциальный множитель, но
зато в качестве нижнего предела интегрирования брать р.
Тогда (55) примет вид
In --- - (56)
1 - а (1 -о) р 2х А
Функция S (wi), получаемая интегрированием (54), будет равна
sw=B(i-fl)+ 2хА
ln-^^-4-
1 -а
(si - s2f
+ Н0 (шх) - я0 (а) - (1 + In р) (а - toj], (57)
(.HQ (w) = - w In w - (1 - to) In (1 - w)).
309
Величина /л, входящая в (56), (57), определяемая равенством
Wi Wi
Г dw Г
J V=J'
Wl
dw С ф(^)-ф(ш) dw
= I е
w
д О
Wl
Г ехр Г ^ л
J L (si - "г)(r) V Ш1 w J J
Г_2*Р_ J1 Ei ( 2хр
L (si - ss)2 Wi J V
= - exp
(Si - S2)2 Wi)'
оказывается при 2уф (s1 - sa)-2 С 1 равной
(Y = 1,781...).
(Si - s2)
Перейдем к условной постановке данной задачи. Пусть штрафы А и В не
заданы, а требуется найти оптимальную обработку наблюденных величин,
обращающую в минимум среднее время разладки
Т = -i--------Г [D (у) - т (*)] Р {dx, dy) (58)
1 -a J
D(y)>i(x)
при фиксированной вероятности ложной тревоги
j* P(dx, dy) = а. " (59)
D (")<т(дс)
Здесь через т(х) обозначено время возникновения разладки.
Сводя условную задачу к стандартной (бейесовской), образуем функцию риска
R = j" [D{y) - x {х)] Р {dx, dy) + X j Р {dx, dy) =
D>т D<т
= J [ J MCit {Xt) + C'DD (JCD)] P {dx, dy), (60)
0
где
Ctt (-^i) - ^ > С# (x%) = ^tt = C(t(x2) = X.
Задача минимизации риска (60) совпадает с вышеизложенной задачей, если
положить X = В/А. Наблюдение должно вестись, пока w\ не достигнет
порогового значения а. Равенство (55) устанавливает однозначную связь
между X и а. Поскольку % - неопределенный множитель, то X или а следует
определить из условия (59).
310
Задавшись значением а, подсчитаем вероятность ложной тревоги
а =. Р [D (у) < т (*)] = J Р [П (у) < т| т] Р (dx), где j Р (dx) = рг
(t).
О т>*
Учитывая (47), имеем 00
а = р fe-P* P(D<x\x]dx. (61)
о
Вероятность Р [D < т | т], очевидно, берется при наблюдаемом сигнале yt =
s2 + lt. Эту вероятность можно подсчитать, зная, что W\ удовлетворяет
уравнению (48), принимающему вид
dw.
Sl S2
Ml - М
с начальным условием w\ = w0 = 0 при /==0.
Плотность вероятности перехода f (wo, wu t-(о). (^o=0), которая связана с
P[D<t | т] соотношением Р [D < т [ т] =
1
f (О, W\, t) dw\, при этом удовлетворяет (первому)
уравнению Колмогорова df _ df
dt п
dt
р (1 щ) -
2Н (w0)
дЩ cte 5
Из него интегрированием по од от 0 до а и по t (после умножения на erpt)
получаем уравнение
H(w0)
д2в
2Я (wn) 1 - too
dwn
: pQ (62)
для характеристической функции
ОО
(r) (wo> Р) = Р j е~рт Р № <С т!т] = о
оо а
- \ - р^ dx е~рх j" dwj(wо, ад, х). о о
Уравнению (62) соответствует граничное условие
0(а,р) = 1. (63)
Поскольку 0 < 0 (w0, р) < 1 при всех ш0 и р > 0, потребуем ограниченности
10 (0, р) | < оо (64)
на другом конце интервала.
311
Нетрудно видеть, что (61) совпадает с частным значением о: = 0 (0, |3),
поэтому в дальнейшем мы будем полагать р = р.
Умножая (62) на интегрирующий множитель, имеем после однократного
интегрирования
^ (ш0, р) = - Р - - Г ея>(".)-ф(") (4тГ7-' 0 К Р) ^ +
ftt'o (1-ш0)2.] Н (w)
О
-|-------- (65)
(1 - w0f
Здесь Ci =0 в силу (64).
Равенство (65) удобно для получения асимптотического решения 0 (ш0, р)
при р 0. Подынтегральное выражение в (65) существенно лишь при малых ш,
где 0 (ш, р) можно заменить на 0 (0, р), а <p (да) -на асимптотическое
выражение----------------. Тогда будем иметь
(si - s2)2 w
дв . 0(0, Р)
(ш0, Р) ^
dw0 (1 - w0)2
Интегрируя вторично при условии (63) и полагая дао = 0,
находим
а = 0(0, Р)= 1 -а.
Таким образом, пороговое значение а =Д - а и прочие
параметры задачи определены (выражены через а).
Теперь можно найти также среднее время разладки (58), пользуясь найденным
ранее выражением (57). В самом деле, риск (60) совпадает (при Л = 1) с
значением S(0), поэтому
(1 - а)Т= S(0) - ка 2и
(Sl -s2f
In ^-------------------i
(1 - а)ц
Эта формула, если учесть, что ----------------- = --- ~РТ0
1 - а а
Т0 - среднее время между ложными тревогами), совпадает с асимптотическим
выражением для среднего времени запаздывания
^{ln[JVir*]-c-1l'c=0'577'-
полученным ранее Ширяевым [1, 2].
Т =
("1-
ЛИТЕРАТУРА
Арроу, Блеквелл, Гиршик (Arrow К. I., Blackwell D., Gir-s h i k M. A.).
1. Bayes and minimax solutions of sequential decision problems. "Econo-
metrica", 1949, v. 17, pp. 213-244.
Веллман P.
1. Динамическое программирование. М., ИЛ, 1960.
Веллман Р., Г л и к с б е р г И., Гросс О.
1. Некоторые вопросы математической теории процессов управления. М., ИЛ,
1962.
Веллман Р., Калаба Р.
1. Теория динамического программирования и системы управления с обратной
связью. Доклад на I конгрессе ИФАК. "Тр. I междунар. конгресса ИФАК". М.,
Предыдущая << 1 .. 87 88 89 90 91 92 < 93 > 94 95 96 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed