Научная литература
booksshare.net -> Добавить материал -> Физика -> Стратонович Р.Л. -> "Условные марковские процессы и их применение к теории оптимального управления" -> 76

Условные марковские процессы и их применение к теории оптимального управления - Стратонович Р.Л.

Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления — МГУ, 1966. — 319 c.
Скачать (прямая ссылка): uslovniemarkovskieprocessiiihprimeneniya1966.pdf
Предыдущая << 1 .. 70 71 72 73 74 75 < 76 > 77 78 79 80 81 82 .. 97 >> Следующая

остановка. Это соответствует более специальным, чем (10.43. а), штрафам
остановки:
_10 =
( В при r\t = - \. '
Добавляя к ut ступенчатую функцию (10.2), видим, что в данной задаче роль
процесса управления ut играет пара (ut, ut), или, что то же, пара (utut,
ut). Принимая во внимание указанные выше штрафы (11.1), (11-2),
записываем полную функцию штрафов (10.5)
(11.3)
Введем достаточные координаты для данной задачи и рассмотрим
соответствующее ей рекуррентное соотношение (8.39) (при фь = th). Как и в
гл. 10, достаточными координатами являются (в соответствии с теоремой
8.11) значение "< и апостериорная вероятность
= (11.4)
где
Jt = [a, t] Г) {s:"s = 1).
= Целесообразно ограничиться пространством функций {Ut, *€ Т) , измеримых
по Борелю. Тогда интеграл G\ususds в (11,3) будет существовать. Кроме
того, множество Jt будет соединением не более чем счетного числа
непересекаю-
248
щихся интервалов:
Jt= у TI-J-
На каждом интервале (т'., х".) апостериорная вероятность wx (г) как
функция от т удовлетворяет уравнению (6.43), принимающему вид
dw, (т) . 2 du ... г.
-1LA. = Vw2 - -1- w w2 -JL- t (11.5)
dx N dx
и на каждом интервале 1т"., т)+1)- уравнению вида (9.35)
dWi (т) . с.
= XW% - (11.6)
dx
Таким образом, вероятность wi (t) может быть получена как решение
чередующихся уравнений (11,5), (11.6) при ус-
'ловии непрерывности в граничных точках ..., т/, xh t/+i................
Если задано значение оц (tk) и известно управление w*fe+1, то описанным
способом мы можем получить значение
w1(ik+i) = w1(w1(tk), ~и\к+\ у\кк+1) и найти для него распределение
вероятностей Р (dw1 (4+i) | ";*+', w1 (tk)). Рассмотрим преобразование
(Ttk'k+i ("t+1) 8) Ю = j S Ю Р (dw[ | wj. (11.7}
Удобно ввести обозначение
_ **+i_
Аи = j utdt.
Как легко видеть, если Aw = 4+i- tk= А, то на почти
всем интервале (th,tk+\) справедливо уравнение (11.5), а если Ди=0, то на
этом интервале почти всюду справедливо уравнение (11.6). Первому
уравнению соответствует инфини-тезимальный оператор (9.44)
dL' 2 2 9 <52 , , \ <5
= __ w2w2 __ + (VWz _ j^) .
dr N г daq dwi
а второму - оператор
dL,/r
__ =(v^a - №)
dt dwi
Следовательно, в предположении, что g (w\) дважды диффе-
24"
ренцируемая функция, имеем
Тш+1 С4+1) 8 = я + [¦-J wy2 -g*- + (Vttf,- №) Ц- ]А+о(А)
при Аи А;
Т(А+1 $*+>) Я ¦= Я + (vay2 - ршх) А + о (Л) при Ап = 0.
Нетрудно понять, что в промежуточном случае, когда О < Ап < А,
справедлива интерполирующая формула:
Ttktk+1 й+1) я=* ¦+ jf wK -?f^+(v^ - №) UA+° (д) •
(11.8)
Таким образом, оператор (11.7), если пренебречь величиной о (А), зависит
от и<|+1 только через посредство А и.
Учтем приведенные выше результаты при конкретизации рекуррентного
соотношения (8.39). Принимая во внимание
(11.3), будем минимизировать, как и при выводе (10.9), сначала по (при
фиксированной функции {нф), а затем по
м^+!, т. е. пой1 €|[4, tu+1). Тогда (8.39) будет иметь вид
St (1, Wj) - min {min [(A^ + A2w2) A + о (A) + GAu +
^+1
+ Tt t (%*+1) S (1, a^)], min [{A^ + A2w2) (Vе! - th) +
kk+i\ tk > tk+i e?Vk.tk+1)
+ n(A)+M(B ^(0)1^)]}. (11.9)
Здесь использованы вытекающие из (11.1), (11,2) равенства
М [Си | (t)] = Ащ (t) Н- A2w2 (t) + Gut;
М {C'tt^it)] = Bw2(t).
В тех точках, где S, (1,0^) дважды дифференцируема по wu согласно (11.8)
имеем
St (1, ш1) = min \ min \[А^\ + A2w2) А + GAu +
к ' (0<Ди<Д
+ \+1 (1 > ^i) + ~ Ап + №г - №) А
250
min [Bw2- B(vw2- - tk) +
(11.10)
-f- (A1w1 + A2w2) (O' - tk)] | + о (A).
Вследствие линейной зависимости входящих сюда выражений от Да и 0 минимум
достигается в крайних точках, так что
\ 0. wi) = min |s(fc+1 (1, Щ) + J(voy2 - рш,) +
+ A1w1 + A2w2 A,
5
4+1(l. wi) +
W2W2 _^±i + {VW2 _ №) _^4±l +
N ow\ owl
-J- A1w1 + A2w2 + G A, (11.11)
Bw2, Bw2 -f [AjW± + A2w2 - В (yw2 - рда^] A j + о (A).
Обозначим выражения, стоящие в фигурных скобках, соответственно Ни #2,
#3, Н.и Пусть Hi - та область интервала [0,1] Э Wu где
lim i [min (Нр } = 1, . .., 4) - S J = lim ~ [Я; - SJ. д-"о Д / * л-
"о Д
Как и в гл. 10, мы предполагаем, что функция ^^принадлежит области
регулярности Dtk+l (§ 8.6). Такие функции, как видно из (11.11), не
превосходят Bw2. В области Ес = Е3 U Н4 они равны Ви>2, а в областях Hi,
S2 (С Е) они меньше Bw2.
Функции S, принадлежащие области регулярности, являются, кроме того,
непрерывными по W\ и им соответствует непрерывная функция г|н (wu S). Это
можно доказать тем же способом, что и в § 10.3 (доказательство 10.1.В).
После предельного перехода А 0 рекуррентные соотношения (11.11)
обращаются в дифференциальное уравнение
" -S' (1д' Wl) = Фг К, <S# (1, Wj)),
где
Ф< К> St) = (vw2 - рш,) + Axwx + A2w2 в Si;
dwi
2 2 0 d2St . dst
- wjm -5- + (vp, - pax) -
N 1 2 dw2{
в
Ф; K, St) = - w2w2 + (vp2 - pa^) -L. + + A2w2 + G
"2*
251
К нему следует присоединить граничное условие:
S, fe2) - В( 1 -Wj) на границе области Sc
(11.12).
Область Н4 (0 является "неустойчивой"; она превращается в Ег (О при
меньших временах t' < t и поэтому особого рассмотрения не требует.
Предыдущая << 1 .. 70 71 72 73 74 75 < 76 > 77 78 79 80 81 82 .. 97 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed