Funkcja wartości - Value function
Wartość funkcji o problemu optymalizacji daje wartość osiągniętą przez funkcję celu w roztworze, a jedynie w zależności od parametrów problemu. W kontrolowanym układzie dynamicznym funkcja wartości przedstawia optymalną wypłatę systemu w przedziale [t, t 1 ], gdy jest uruchamiana przy zmiennej stanu czasu t x (t) = x . Jeśli funkcja celu reprezentuje pewien koszt, który ma zostać zminimalizowany, funkcję wartości można zinterpretować jako koszt ukończenia optymalnego programu i dlatego określa się ją jako „funkcję kosztu do wykonania”. W kontekście ekonomicznym, w którym funkcja celu zwykle reprezentuje użyteczność , funkcja wartości jest koncepcyjnie równoważna z pośrednią funkcją użyteczności .
W problemie sterowania optymalnego funkcję wartości definiuje się jako wyższość funkcji celu przejmowanej nad zbiorem kontroli dopuszczalnych. Biorąc pod uwagę , typowym problemem optymalnego sterowania jest
z zastrzeżeniem
ze zmienną stanu początkowego . Funkcja celu ma być zmaksymalizowana we wszystkich dopuszczalnych kontrolach , gdzie jest mierzalna funkcja Lebesgue'a od do jakiegoś przepisanego zbioru arbitralnego . Funkcja wartości jest następnie definiowana jako
z , gdzie jest złom wartość. Jeśli optymalna para trajektorii kontroli i stanu to , to . Funkcja zapewniająca optymalną kontrolę w oparciu o bieżący stan nazywana jest polityką kontroli sprzężenia zwrotnego lub po prostu funkcją polityki.
Zasada optymalności Bellmana z grubsza stwierdza, że każda optymalna polityka w danym momencie , przyjmująca obecny stan jako „nowy” warunek początkowy, musi być optymalna dla pozostałego problemu. Jeśli funkcja wartości jest różniczkowalna w sposób ciągły , powstaje ważne równanie różniczkowe cząstkowe, znane jako równanie Hamiltona-Jacobiego-Bellmana ,
gdzie maximand na prawej stronie może być re-written jako Hamiltonianu , jak
z odgrywaniem roli zmiennych kosztorysu . Biorąc pod uwagę tę definicję, mamy dalej i po zróżnicowaniu obu stron równania HJB w odniesieniu do ,
który po zastąpieniu odpowiednich terminów odzyskuje równanie kosztu
gdzie jest notacja Newtona dla pochodnej w odniesieniu do czasu.
Funkcja wartości jest unikalnym rozwiązaniem lepkości równania Hamiltona-Jacobiego-Bellmana. W przybliżonej optymalnej kontroli online w zamkniętej pętli, funkcja wartości jest również funkcją Lapunowa, która ustanawia globalną asymptotyczną stabilność systemu zamkniętej pętli.
Bibliografia
Dalsza lektura
- Caputo, Michael R. (2005). „Warunki konieczne i wystarczające dla problemów izoperymetrycznych” . Podstawy dynamicznej analizy ekonomicznej: teoria i zastosowania optymalnej kontroli . Nowy Jork: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4 .
- Clarke, Frank H .; Loewen, Philip D. (1986). „Funkcja wartości przy optymalnej kontroli: czułość, sterowalność i optymalność czasowa”. Dziennik SIAM dotyczący kontroli i optymalizacji . 24 (2): 243–263. doi : 10.1137 / 0324014 .
- LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). „Twierdzenie obwiedni w optymalizacji dynamicznej” (PDF) . Journal of Economic Dynamics and Control . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
- Stengel, Robert F. (1994). „Warunki optymalności” . Optymalna kontrola i szacowanie . Nowy Jork: Dover. s. 201–222. ISBN 0-486-68200-5 .