Funkcja wartości - Value function

Wartość funkcji o problemu optymalizacji daje wartość osiągniętą przez funkcję celu w roztworze, a jedynie w zależności od parametrów problemu. W kontrolowanym układzie dynamicznym funkcja wartości przedstawia optymalną wypłatę systemu w przedziale [t, t 1 ], gdy jest uruchamiana przy zmiennej stanu czasu t x (t) = x . Jeśli funkcja celu reprezentuje pewien koszt, który ma zostać zminimalizowany, funkcję wartości można zinterpretować jako koszt ukończenia optymalnego programu i dlatego określa się ją jako „funkcję kosztu do wykonania”. W kontekście ekonomicznym, w którym funkcja celu zwykle reprezentuje użyteczność , funkcja wartości jest koncepcyjnie równoważna z pośrednią funkcją użyteczności .

W problemie sterowania optymalnego funkcję wartości definiuje się jako wyższość funkcji celu przejmowanej nad zbiorem kontroli dopuszczalnych. Biorąc pod uwagę , typowym problemem optymalnego sterowania jest

z zastrzeżeniem

ze zmienną stanu początkowego . Funkcja celu ma być zmaksymalizowana we wszystkich dopuszczalnych kontrolach , gdzie jest mierzalna funkcja Lebesgue'a od do jakiegoś przepisanego zbioru arbitralnego . Funkcja wartości jest następnie definiowana jako

z , gdzie jest złom wartość. Jeśli optymalna para trajektorii kontroli i stanu to , to . Funkcja zapewniająca optymalną kontrolę w oparciu o bieżący stan nazywana jest polityką kontroli sprzężenia zwrotnego lub po prostu funkcją polityki.

Zasada optymalności Bellmana z grubsza stwierdza, że ​​każda optymalna polityka w danym momencie , przyjmująca obecny stan jako „nowy” warunek początkowy, musi być optymalna dla pozostałego problemu. Jeśli funkcja wartości jest różniczkowalna w sposób ciągły , powstaje ważne równanie różniczkowe cząstkowe, znane jako równanie Hamiltona-Jacobiego-Bellmana ,

gdzie maximand na prawej stronie może być re-written jako Hamiltonianu , jak

z odgrywaniem roli zmiennych kosztorysu . Biorąc pod uwagę tę definicję, mamy dalej i po zróżnicowaniu obu stron równania HJB w odniesieniu do ,

który po zastąpieniu odpowiednich terminów odzyskuje równanie kosztu

gdzie jest notacja Newtona dla pochodnej w odniesieniu do czasu.

Funkcja wartości jest unikalnym rozwiązaniem lepkości równania Hamiltona-Jacobiego-Bellmana. W przybliżonej optymalnej kontroli online w zamkniętej pętli, funkcja wartości jest również funkcją Lapunowa, która ustanawia globalną asymptotyczną stabilność systemu zamkniętej pętli.

Bibliografia

Dalsza lektura