Читаем Основы Социологии полностью

Основы Социологии

5. Критерий оптимального выбора последовательности шаговых управлений U_nи соответствующей траектории в пространстве формальных параметров имеет вид:

V = V₀(X₀, U₀) + V₁(X₁, U

₁) + …+ V_{N - 1}(X_{N- 1}, U_{N - 1}) + V_N(X_N).

Критерий V

принято называть полным выигрышем, а входящие в него слагаемые - шаговыми выигрышами. В задаче требуется найти последовательность шаговых управлений U_n и траекторию, которым соответствует максимальный из возможных полных выигрышей. По своему существу полный выигрыш V - мера качества управления

процессом в целом. Шаговые выигрыши, хотя и входят в меру качества управления процессом в целом, но в общем случае не являются мерами качества управления на соответствующих им шагах, поскольку метод предназначен для оптимизации процесса управления в целом, а эффектные шаговые управления с большим шаговым выигрышем, но лежащие вне оптимальной траектории, интереса не представляют. Структура метода не запрещает при необходимости на каждом шаге употреблять критерий определения шагового выигрыша V_n, отличный от критериев, принятых на других шагах. Кроме того, критерий оптимальности может быть построен и как произведение шаговых выигрышей, которые однако в этом случае не должны принимать отрицательных значений.

С индексом n - указателем-определителем множеств возможных векторов состояния - в реальных задачах может быть связан некий изменяющийся параметр, например: время, пройденный путь, уровень мощности, мера расходования некоего ресурса

и т.п. То есть метод применим не только для оптимизации управления процессами, длящимися во времени, но и к задачам оптимизации многовариантного одномоментного или нечувствительного ко времени решения, если такого рода «безвременные», «непроцессные» задачи допускают их многошаговую интерпретацию.

Теперь обратимся к рис. 1 - рис. 3, повторяющим взаимно связанные рис. 40, 41, 42 из курса теории автоматического управления П. де Ла Барьера, хотя в нём они иначе озаглавлены.

На рис. 1 (приведён ниже по тексту) показаны начальное состояние системы - «0» и множества её возможных последующих состояний - «1», «2», «3», а также возможные переходы из каждого возможного состояния в другие возможные состояния. Всё это вместе похоже на карту настольной детской игры, по которой перемещаются фишки: каждому переходу-шагу соответствует свой шаговый выигрыш, а в завершающем процесс третьем множестве - каждому из состояний системы придана его оценка, помещенная в прямоугольнике. Принципиальное отличие от игры в том, что гадание о выборе пути, употребляемое в детской игре, на основе бросания костей либо вращения волчка и т.п., в реальном управлении недопустимо, поскольку это - передача целесообразного управления тем силам, которые способны управлять выпадением костей, вращением волчка и т.п., т.е. тем, для кого избранный в игре «генератор случайностей» - достаточно эффективно (по отношению к их целям) управляемое устройство.

Рис. 1. К существу метода динамического программирования. Матрица возможностей.

Если выбирать оптимальное управление на первом шаге, то необходимо предвидеть все его последствия на последующих шагах. Поэтому описание алгоритма метода динамического программирования часто начинают с описания выбора управления на последнем шаге, ведущем в одно из завершающих процесс состояний. При этом ссылаются на «педагогическую практику», которая свидетельствует, что аргументация при описании алгоритма от завершающего состояния к начальному состоянию легче воспринимается, поскольку опирается на как бы уже сложившиеся к началу рассматриваемого шага условия, в то время как возможные завершения процесса также определены.

Перейти на страницу: