Funkcja wartości - Value function

Wartość funkcji o problemu optymalizacji daje wartość osiągniętą przez funkcję celu w roztworze, a jedynie w zależności od parametrów problemu. W kontrolowanym układzie dynamicznym funkcja wartości przedstawia optymalną wypłatę systemu w przedziale [t, t ₁ ], gdy jest uruchamiana przy zmiennej stanu czasu t x (t) = x . Jeśli funkcja celu reprezentuje pewien koszt, który ma zostać zminimalizowany, funkcję wartości można zinterpretować jako koszt ukończenia optymalnego programu i dlatego określa się ją jako „funkcję kosztu do wykonania”. W kontekście ekonomicznym, w którym funkcja celu zwykle reprezentuje użyteczność , funkcja wartości jest koncepcyjnie równoważna z pośrednią funkcją użyteczności .

W problemie sterowania optymalnego funkcję wartości definiuje się jako wyższość funkcji celu przejmowanej nad zbiorem kontroli dopuszczalnych. Biorąc pod uwagę , typowym problemem optymalnego sterowania jest ${\ Displaystyle (t_ {0}, x_ {0}) \ w [0, t_ {1}] \ razy \ mathbb {R} ^ {d}}$

{\ displaystyle {\ text {maksymalizacja}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} ja (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

z zastrzeżeniem

{\ Displaystyle {\ Frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

ze zmienną stanu początkowego . Funkcja celu ma być zmaksymalizowana we wszystkich dopuszczalnych kontrolach , gdzie jest mierzalna funkcja Lebesgue'a od do jakiegoś przepisanego zbioru arbitralnego . Funkcja wartości jest następnie definiowana jako ${\ Displaystyle x (t_ {0}) = x_ {0}}$ ${\ Displaystyle J (t_ {0}, x_ {0}; u)}$ ${\ Displaystyle u \ in U [t_ {0}, t_ {1}]}$ ${\ displaystyle u}$ ${\ displaystyle [t_ {0}, t_ {1}]}$ ${\ displaystyle \ mathbb {R} ^ {m.}}$

${\ Displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} ja (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

z , gdzie jest złom wartość. Jeśli optymalna para trajektorii kontroli i stanu to , to . Funkcja zapewniająca optymalną kontrolę w oparciu o bieżący stan nazywana jest polityką kontroli sprzężenia zwrotnego lub po prostu funkcją polityki. ${\ Displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ ${\ Displaystyle \ phi (x (t_ {1}))}$ ${\ Displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ ${\ Displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ ${\ displaystyle h}$ ${\ Displaystyle u ^ {\ ast}}$ ${\ displaystyle x}$

Zasada optymalności Bellmana z grubsza stwierdza, że każda optymalna polityka w danym momencie , przyjmująca obecny stan jako „nowy” warunek początkowy, musi być optymalna dla pozostałego problemu. Jeśli funkcja wartości jest różniczkowalna w sposób ciągły , powstaje ważne równanie różniczkowe cząstkowe, znane jako równanie Hamiltona-Jacobiego-Bellmana , ${\ displaystyle t}$ ${\ displaystyle t_ {0} \ leq t \ leq t_ {1}}$ ${\ Displaystyle x (t)}$

{\ Displaystyle - {\ Frac {\ częściowe V (t, x)} {\ częściowe t}} = \ max _ {u} \ lewo \ {I (t, x, u) + {\ Frac {\ częściowe V (t, x)} {\ partial x}} f (t, x, u) \ right \}}

gdzie maximand na prawej stronie może być re-written jako Hamiltonianu , jak ${\ Displaystyle H \ lewo (t, x, u, \ lambda \ prawej) = ja (t, x, u) + \ lambda f (t, x, u)}$

{\ Displaystyle - {\ Frac {\ częściowe V (t, x)} {\ częściowe t}} = \ max _ {u} H (t, x, u, \ lambda)}

z odgrywaniem roli zmiennych kosztorysu . Biorąc pod uwagę tę definicję, mamy dalej i po zróżnicowaniu obu stron równania HJB w odniesieniu do , ${\ Displaystyle \ częściowe V (t, x) / \ częściowe x = \ lambda (t)}$ ${\ Displaystyle \ operatorname {d} \ lambda (t) / \ operatorname {d} t = \ częściowe ^ {2} V (t, x) / \ częściowe x \ częściowe t + \ częściowe ^ {2} V (t, x) / \ częściowe x ^ {2} \ cdot f (x)}$ ${\ displaystyle x}$

{\ Displaystyle - {\ Frac {\ częściowe ^ {2} V (t, x)} {\ częściowe t \ częściowe x}} = {\ Frac {\ częściowe I} {\ częściowe x}} + {\ Frac { \ częściowe ^ {2} V (t, x)} {\ częściowe x ^ {2}}} f (x) + {\ frac {\ częściowe V (t, x)} {\ częściowe x}} {\ frac {\ częściowe f (x)} {\ częściowe x}}}

który po zastąpieniu odpowiednich terminów odzyskuje równanie kosztu

{\ Displaystyle - {\ kropka {\ lambda}} (t) = {\ Frac {\ częściowe I} {\ częściowe x}} + \ lambda (t) {\ Frac {\ częściowe f (x)} {\ częściowe x}} = {\ frac {\ częściowe H} {\ częściowe x}}}

gdzie jest notacja Newtona dla pochodnej w odniesieniu do czasu. ${\ Displaystyle {\ kropka {\ lambda}} (t)}$

Funkcja wartości jest unikalnym rozwiązaniem lepkości równania Hamiltona-Jacobiego-Bellmana. W przybliżonej optymalnej kontroli online w zamkniętej pętli, funkcja wartości jest również funkcją Lapunowa, która ustanawia globalną asymptotyczną stabilność systemu zamkniętej pętli.

Bibliografia

Dalsza lektura

Caputo, Michael R. (2005). „Warunki konieczne i wystarczające dla problemów izoperymetrycznych” . Podstawy dynamicznej analizy ekonomicznej: teoria i zastosowania optymalnej kontroli . Nowy Jork: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4 .
Clarke, Frank H .; Loewen, Philip D. (1986). „Funkcja wartości przy optymalnej kontroli: czułość, sterowalność i optymalność czasowa”. Dziennik SIAM dotyczący kontroli i optymalizacji . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). „Twierdzenie obwiedni w optymalizacji dynamicznej” (PDF) . Journal of Economic Dynamics and Control . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). „Warunki optymalności” . Optymalna kontrola i szacowanie . Nowy Jork: Dover. s. 201–222. ISBN 0-486-68200-5 .

Languages

In other projects

Funkcja wartości - Value function

Bibliografia

Dalsza lektura