Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 90

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 84 85 86 87 88 89 < 90 > 91 92 93 94 95 96 .. 97 >> Следующая

остановки Д, Д сходятся в одну точку:
(24>
29 Т
В моменты t < Т область продолжения испытаний f\ (t) < < Wi < f% (t)
расширяется и при Т - t -* оо стремится к предельной области a <W\ <Ь.
Границы последней легко найти, полагая в (16), (21) dS/dt = 0; = 0.
Подставляя ре-
dt
шение полученного уравнения
v - A - C Г
.) H(w)
а
во второе условие (19) ив (22), находим трансцендентные уравнения
С[-*^=А + В,
J H(w)
а
с[-^- = В, (25)
J Н (w) V '
а
которые служат для определения а, Ь. В случае Л =В остается лишь одно
уравнение
1-а
Ц dw 4и Г 1 ~2а -4- 2 In * - ° 1 ^
J H(w) (si -s2)2 L a (1 - a) a<> J С
a
\b - 1 - a).
Знания предельных границ областей остановки достаточ-(r)о, когда
длительность процесса наблюдения не лимитирована. В случае "усеченных"
испытаний иногда предлагают проводить наблюдение с прежними постоянными
границами /вплоть до самого последнего момента Т. Очевиден неоптимальный
характер такой процедуры. Для получения оптимальных границ /ь2 (t)
следует решать описанную выше задачу. Ввиду того что точное решение
получить затруднительно, могут быть применены те или иные приближенные
методы. Приведем одно из таких приближенных решений, дающее
асимптотическое выражение для fi,2 (() при достаточно малых значениях Т -
t.
Поскольку функции f 1,2 вблизи конца интервала наблюдения близки к своим
заключительным значениям (24), внутри области наблюдения можно считать
Н(w 1) постоянной:
ЯЮ^Я(/*) = Я.
.298
В качестве v (tob t) возьмем решение
t ^- В А-\~ В ^ / Wj
V (W,, t) - --------------------Ф | 7=
v 1' 2 2 \2V(rj
2V(T-t)H
(ф"-тИе"'',е>
Зу
которое в точности удовлетворяет уравнению = Я
dt dw2
(см. (21)), но лишь приближенно граничным условиям (19). Функции /1,2 (0
определяем при помощи (23)
А + В
1
/я 2}/(Г - t)H
¦ ехр

(Л.2-/*)2
4 (T-t)H
Н
Отсюда
/1.2(0 =Г ± 2
(Г -0Я1п (--2-
\ 2 у лС у T - i
(26)
Если не учитывать разницы между Я (гщ) и Я, то решение (26) будет точным
для случая переменных штрафов
Л + В.
Л(0 = +
-В(0 = -

-Ф(х),
\ 2/яС J/ Г - <
в чем можно убедиться, вычисляя v (f1)2, /). Используя асимптотическую
формулу
-*2
Ф(*) = 1-^-Гц-о^Л
У 71 X L \ X /
находим
A - A(t) = B-B(t) = A4*-±e~x
w w 2/я х
1 +0
(")]
Отсюда видно, что при х > 1, Т - / <С Я штрафы
A (t), В (t) близки к Л, В и, следовательно, (26) есть асимптотическое
выражение для функций /Ь2 (t). Различными методами последовательных
приближений можно провести их уточнение.
В заключение рассмотрим условную постановку данной задачи, более близкую
к той постановке, которая имеется в трудах Вальда [1].
Пусть требуется найти оптимальные последовательные
299
критерии D(y), d'DD(y), обращающие в минимум среднее время наблюдения
]D(y)P(dy\x1) или ^D(y)P(dy\x2) (27)
при фиксированных ошибках первого и второго рода:
§P(dy\x2) = а; j P(dy\ xj = p. (28)
г, г2
Здесь Гг - множество тех траекторий {yt}, которые приводят к решению d'DD
(у) = хг- (г = 1,2).
Выбирая произвольное 0 < (c) < 1 и комбинируя средние (27), будем искать
минимум выражения
ejD(y)P(dy\x1) + (1 -0) §D(y)P(dy\x2).
Применим метод сведения условной экстремальной задачи к стандартной
бейесовской задаче. Минимизации подлежит средний риск
R = (r)§D(y)P(dy\Xl) + (l -e)$D(y)P(dy\xt) +
-j- %i | Р (dy ] лу) + Я2 j" Р (dy | х2), г2 г,
где М, ^2 - неопределенные множители, которые будут найдены в дальнейшем.
Если интерпретировать 0, 1-0 как априорные вероятности Р (Xi), Р (х2), то
R = j D (у) Р (dx, dy) + Ь. j p (dy, Xl) + - JaL j* p (dy, Xt).
r3 r,
Последнему выражению нетрудно придать последовательную форму:
R = j Р (dx, dy) [ j dtCu + CDD (x, dDD) ] ,
0
где
Ctt(xi, xi) - Ctt(x2, x2) = 0; Ctt(x^, x2) = = A-,
. (29)
Ctt(x2, xx) - ^ Q = 5; Cti = 1.
Сравнивая (29) с (11), видим, что данная задача совпадает с задачей,
рассмотренной ранее. После ее решения, отношения А/С = Кх/0, В/С = К2/(
1-0) должны быть определены из условий (28).
300
Оптимальный процесс наблюдения состоит в том, что наблюдение ведется,
пока W\ остается в области fi (t) < шi< </2 (t). Наблюдение заканчивается
принятием решения хи как только W\ достигает границы /2 (t), и
противоположного решения, когда достигается другая граница. Сказанное
относится и к отношению правдоподобия /, поскольку оно однозначно связан
с wj соотношением
Wi _ Р(*х) ^
1 - Wi Р (*2)
Область продолжения наблюдения при этом имеет вид
1-0 ML < /< -LzL - ... . (30)
(c) 1 -А(0 (c) 1-/*(<)
Уравнения связи между Л, В, с одной стороны, и а, р, с другой, получаются
из (28) путем решения более или менее сложной задачи на случайные
блуждания и достижение границ.
В стационарных задачах, когда fi (t) = a, f2 (t) = Ь
постоянны, находить а, b как решения уравнений (25) необяза-
тельно. В этом случае (30) согласно (9) имеет вид
lna'<--- j* (^ух Sl ^ S2 dx < In b',
о
где
, 1 - 0 а , , 1 - 0 Ь
а =------------; b =------.
0 1 -а 0 1-Ь
Вычисление вероятностей (28) достижения границ функцией In I при
гипотезах х=х\, х=х2 можно проводить, ре-7шая соответствующее уравнение
Предыдущая << 1 .. 84 85 86 87 88 89 < 90 > 91 92 93 94 95 96 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed