booksshare.net -> Добавить материал -> Математика -> Скороход A.B. -> "Вероятность: основные понятия, структура, методы." -> 86

Вероятность: основные понятия, структура, методы. - Скороход A.B.

Скороход A.B. Вероятность: основные понятия, структура, методы. — , 1989. — 279 c.
Скачать (прямая ссылка): skorohod.djvu

Предыдущая << 1 .. 80 81 82 83 84 85 < 86 > 87 88 89 90 91 92 .. 110 >> Следующая

1.1. Постановка задачи. Пусть управляемый процесс функ-
ционирует на конечном отрезке времени: /=0, 1,2, ... ,Т. Обыч-
но цель управления — либо получить доход, либо прийти к
определенному результату с наименьшими затратами, либо
уменьшить ожидаемый убыток. И доход, и убыток, и затраты
зависят от значений управляемого процесса и использованных
управлений. Доход можно рассматривать как отрицательный
убыток, а убыток как затраты на функционирование управля-
емого процесса. Будем поэтому предполагать, что задана
функция Р^(х0, . . . , Хц, и0,. . . , «я-О, характеризующая затра-
ты на управление, если были использованы управления
и,о, . . . , «дг-ь а состояния процесса были х0, . . . , х^г. Оптималь-
ное управление должно минимизировать стоимость управле-
ния. Пусть были выбраны управления и0, . . . , их-[. Тогда сов-
местное распределение состояний процесса |0, 5ь • • • . (это
случайные элементы в I, ^ — состояние процесса в момент к\
будет

(|0еЛ, . . ., £*еЛлг) =

= ] р{йХ0)^ р(йХх1Хй, «„)... | р(с1хМ1Х0, . .., Хм-\,

А0 А1 Ап

и0, . .., Идт-О = рм(Л' ■ • •■. Ли\ий, ии иы-\)-

14'

211

Средняя стоимость управления

(и0, . . . , «ЛГ-О = ]* Р N (х0, • • •» хм> • • • > X

X {йХ0, . . ., йХы \и0, . . ., Илг-1>

есть функция от использованных управлений. Если использо-
вать управления наперед выбранные, то оптимальным^ будет
то управление, которое доставляет минимум функции Р^. Од-
нако можно существенно улучшить управление, если выбирать
его зависящим от состояний процесса.

Пример. Пусть Х=Я, £/ = /?, л;„ = л;п_1 + т1л+Ип-1. хо = \,
где т|Г1, ци ... — последовательность независимых одинаково распре-
деленных величин, Мч0 = 0, От]0=1, Ри(х0, Хм,
и0, ..., и^-1) = х%. Тогда

/ N Л'-1 \2 /ЛГ—1 \2

1Шп/\у==./У'-т-1. Если считать, что управление на &-ом шаге
может зависеть от состояний процесса до момента к включитель-
но, можем записать

/ N N-1 \ 2 /ЛГ-1 \2

\й=,0 ^=о / \&=о /

Выбирая управление так, чтобы и^——щ, получим управление
со средней стоимостью 1, которую уже нельзя уменьшить.

а) Стратегия управления. Для уточнения способа
выбора управления приведем определение стратегии управле-
ния. Естественно считать, что управление не может зависеть
от будущих состояний процесса и будущих управлений. При
этом оно может быть случайным. Обозначим через
цп(С/хъ, Х\, . . . , хп, Щ, . . . , ип^{) условную вероятность того,
что управление в момент п принимает значение из множества
СЪ%', если предыдущие управления были и0, ■ ■ . , ип-и а со-
стояния процесса до момента п включительно х0, хи . . . , хп.
Она считается ^"^(^"-измеримо зависящей от своих аргу-
ментов. Набор функций {<7п(С|.....) п=0, 1, 2,...} опреде-
ляет стратегию управления. Такая стратегия называется ран-
домизированной. Предположим, что меры <7п(-|') при всяком
п сосредоточены в одной точке. Пусть ЭТО ТОЧКИ Un=gn(Xo,
хи...,хП1 «о, • ■ • , «п-О- Тогда «о=Ы*о), u^=g^(xo, хх,
Яо{х0))=Я1{х0,Х1), . .. ,ип=^п{х0, . . . ,хп). Стратегии управле-
ния такого вида называются нерандомизированными. Функции
(хо,. . . , х{) также ^4+1-измеримы.

Если заданы управляемый процесс и стратегия управления,
то определена последовательность (|п, цп) в пространстве
Ху^и с конечномерными распредлениями

Р{!„еА' Ъ&Сй, ЫАи тцеСь ...,|Я6ЛЯ, г|„бС„} =
= | /?0 | <70 (с?м01 л:0) ... | р„ (йхп \х0.....х„_и

Л0 с„ ап

иа, . . ., 11п_\) |" ^п (йип | л0, ..., хп, и0, . . ., 11п_\)- (1)

Такую последовательность будем называть процессом управ-
ления, отвечающим управляемому процессу, определяемому
набором {рп(-|-), п=0, 1,...}, и стратегии управления, опре-
деляемой набором {*?«(• |-)> я—О, 1,...}. Из формулы (1) вы-
текает, что условное распределение при заданных
£о, чо, • • • , £п-ь т)п-1 совпадает с рп{-\1о, ■ ■ ■ Лп-\, по, ■ ■ •
...,т)п-1), а условное распределение Г1„ при заданных
|о, ло, • • •. £п-ь Цп-1 совпадает с дп (■ 11о, • • • , 1п, щ, ■ ■ ■, Цп-1) ■

Последовательность {£п} есть последовательность состо-
яний управляемого процесса, а последовательность {цп} —■
последовательность управлений. В дальнейшем мы будем счи-
тать фиксированным управляемый процесс (т. е. набор
{Рп('\-)}) и стоимость управления /V, стратегию управления
можно изменять, подбирая ее так, чтобы стоимость управления
была по возможности меньше. Будем в дальнейшем обозна-
чать стратегию одной буквой (скажем 5), отождествляя ее с
набором {<7п(-|-)}, записывая 5 = {^п(-|-)}- Через Ре и М8,
где 5 — некоторая стратегия, обозначим вероятность и мате-
матическое ожидание, относящиеся к процессу управления
{(|п, Цп)}, если выбрана стратегия управления 5.

Предыдущая << 1 .. 80 81 82 83 84 85 < 86 > 87 88 89 90 91 92 .. 110 >> Следующая