next up previous
Next: リカッチの方法 (Riccati equation) Up: 最適制御法則 Previous: 最適制御法則

ハミルトン・ヤコビの方法 (Hamilton-Jacobi)

前項の方法を発展させたもので、2点境界値問題を解かずに、閉回路として 最適制御方法を求める方法である。

システム方式を

\begin{displaymath}
\dot{\mbox{\boldmath$x$}} = \mbox{\boldmath$f$}(\mbox{\boldmath$x$},
\mbox{\boldmath$u$},t)
\end{displaymath} (2.294)

評価関数を、
\begin{displaymath}
J=\int_{t_i}^{t_f}L(\mbox{\boldmath$x$,\boldmath$u$},t)dt
\end{displaymath} (2.295)

とする。閉回路の最適制御方則を求める場合は、最適制御 $\mbox{\boldmath$u_0$}$ $\mbox{\boldmath$x$}$$t$ の関数となり、 $\mbox{\boldmath$u$}_0 (x,t)$ となる。  初期状態の時間を任意の$t$とし、最終時刻を$t_f$と固定して考える。その評価関数は、
\begin{displaymath}
V(\mbox{\boldmath$x$},t)=\int_{t}^{t_f}L\left[\mbox{\boldmat...
...ox{\boldmath$u$}_0(\mbox{\boldmath$x$},\tau),\tau\right]d \tau
\end{displaymath} (2.296)

になり、上式を時間で微分すると、
\begin{displaymath}
\dot{V}(\mbox{\boldmath$x$},t)=-L\left[\mbox{\boldmath$x$},\mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},t),t\right]
\end{displaymath} (2.297)

となる。一方 $\dot{V}(\mbox{\boldmath$x$},t)$は全微分を適用すると、
\begin{displaymath}
\dot{V}(\mbox{\boldmath$x$},t)=\nabla \mbox{\boldmath$v$}^T(...
...$},t),t]
+\frac{\partial V(\mbox{\boldmath$x$},t)}{\partial t}
\end{displaymath} (2.298)

但し、
\begin{displaymath}
\nabla \mbox{\boldmath$v$}^T = [\frac{\partial V}{\partial x...
...artial V}
{\partial x_2}・・・\frac{\partial V}{\partial x_n}]
\end{displaymath} (2.299)

と書ける。(2.301)式と(2.302)式より
\begin{displaymath}
\nabla \mbox{\boldmath$v$}^T(\mbox{\boldmath$x$},t)\mbox{\bo...
...ldmath$x$},\mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},t),t] = 0
\end{displaymath} (2.300)

(2.304)式を$x_j$で偏微分すると
\begin{displaymath}
\sum_{i=1}^{n} \frac{\partial^2 V}{\partial x_j \partial x_i...
...}{\partial x \partial t} +
\frac{\partial L}{\partial x_j} = 0
\end{displaymath} (2.301)

一方 $\nabla V_j=\frac{\partial V}{\partial x_j}$ を時間で微分すると
\begin{displaymath}
\frac{d}{dt} \frac{\partial V}{\partial x_j} = \sum_{i=1}^{...
...rtial x_j}f_i +
\frac{\partial^2 V}{\partial t \partial x_j}
\end{displaymath} (2.302)

(2.306)式を(2.305)式に代入すると
\begin{displaymath}
\frac{d}{dt} (\frac{\partial V}{\partial x_j}) + \sum_{i=1}...
...ial f_i}{\partial x_j} +
\frac{\partial L}{\partial x_j} = 0
\end{displaymath} (2.303)

(2.243),(2.186)式より
\begin{displaymath}
\dot{\mbox{\boldmath$\lambda$}} = -\frac{\partial H_0(\mbox...
...ath$u$}_0,t) +
L(\mbox{\boldmath$x$},\mbox{\boldmath$u$}_0,t)]
\end{displaymath} (2.304)

$j$ 番目の要素は
\begin{displaymath}
\dot{\lambda}_j = -\left[\sum_{i=1}^{n}\lambda_i \frac{\par...
...x{\boldmath$x$},\mbox{\boldmath$u$}_0,t)}{\partial x_j}\right]
\end{displaymath} (2.305)

(2.307),(2.309)式を比較して、もし
\begin{displaymath}
\lambda_j=\frac{\partial V}{\partial x_j},\qquad
\lambda_i=\frac{\partial V}{\partial x_i}
\end{displaymath} (2.306)

とすれば両式は等しくなる。従って $\mbox{\boldmath$\lambda$} \rightarrow \nabla \mbox{\boldmath$v$}$ に置き換えると、(2.243)式の二番目の式は
\begin{displaymath}
\frac{\partial H(\mbox{\boldmath$x$},\mbox{\boldmath$u$},\nabla \mbox{\boldmath$v$},t)}{\partial \mbox{\boldmath$u$}} = 0
\end{displaymath} (2.307)

になり、これより $\mbox{\boldmath$u$}_0=\mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t)$ を求める。(2.186) 式は
\begin{displaymath}
H(\mbox{\boldmath$x$},\mbox{\boldmath$u$},\nabla\mbox{\boldm...
...boldmath$u$},t) + L(\mbox{\boldmath$x$},\mbox{\boldmath$u$},t)
\end{displaymath} (2.308)

と書かれ、(2.304)式は
\begin{displaymath}
\nabla \mbox{\boldmath$v$}^T (\mbox{\boldmath$x$},t)\mbox{\...
...h$u$}_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t),t]=0
\end{displaymath} (2.309)

と書かれる。従って
$\displaystyle H_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t)$ $\textstyle =$ $\displaystyle H[\mbox{\boldmath$x$},\mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t),\nabla \mbox{\boldmath$v$},t]$  
  $\textstyle =$ $\displaystyle \nabla \mbox{\boldmath$v$}^T \mbox{\boldmath$f$}[\mbox{\boldmath$...
...$x$},\mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t),t]$  

のようになるから、(2.313) (2.314)式より
\begin{displaymath}
H_0[\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$}(\mbox{\b...
...t] + \frac{\partial V(\mbox{\boldmath$x$},t)}{\partial t}
= 0
\end{displaymath} (2.310)

になる。これがハミルトン・ヤコビ $(Hamilton-Jacobi)$方程式である。  以上より最適制御法則を求める手順としては
(第1段階)
\begin{displaymath}
H(\mbox{\boldmath$x$},\mbox{\boldmath$u$},\nabla\mbox{\boldm...
...boldmath$u$},t) + L(\mbox{\boldmath$x$},\mbox{\boldmath$u$},t)
\end{displaymath} (2.311)

を作る。
(第2段階) $H(\mbox{\boldmath$x$},\mbox{\boldmath$u$},\nabla \mbox{\boldmath$v$},t)$を最小にする $\mbox{\boldmath$u$} \in \mbox{\boldmath$U$}$を得る。
\begin{displaymath}
\mbox{\boldmath$u$}_0 = \mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t)
\end{displaymath} (2.312)

(第3段階)

最適の$H$を求める。

\begin{displaymath}
H_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t)=H[\mbo...
...$},\nabla \mbox{\boldmath$v$},t),\nabla \mbox{\boldmath$v$},t]
\end{displaymath} (2.313)

(第4段階)

ハミルトン・ヤコビの偏微分方程式を解く。

\begin{displaymath}
H_0(\mbox{\boldmath$x$},\nabla \mbox{\boldmath$v$},t) + \frac{\partial V}{\partial t}
= 0
\end{displaymath} (2.314)

この場合、特定の境界条件で $V(\mbox{\boldmath$x$},t)$を得る。
(第5段階)

最適制御法則を得るために $\mbox{\boldmath$u$}_0(\mbox{\boldmath$x$},t)$を(第4段階)の結果に代入する。
$[$$]$

システム方程式

\begin{displaymath}
\dot{x} = -2x+u
\end{displaymath} (2.315)

評価関数

\begin{displaymath}
J = \int_{0}^{\infty}(x^{2}+u^{2})dt
\end{displaymath} (2.316)

この場合の最適制御法則を求める。
(第1段階)

\begin{displaymath}
H = \nabla v(-2x+u)+(x^{2}+u^{2})
\end{displaymath} (2.317)


(第2段階)
\begin{displaymath}
\frac{\partial H }{\partial u}=\frac{\partial \nabla v}{\partial u}(-2x+u)
+\nabla v + 2u =0
\end{displaymath} (2.318)


\begin{displaymath}
\nabla v + 2u =0
\end{displaymath}


\begin{displaymath}
u_0=-\frac{\nabla v}{2}
\end{displaymath} (2.319)

(第3段階)
\begin{displaymath}
H_0=-2x \nabla v - \frac{(\nabla v)^ {2}}{4}+x^{2}
\end{displaymath} (2.320)

(第4段階)
\begin{displaymath}
-2x\nabla v-\frac{(\nabla v)^{2} }{4}+x^{2} + \frac{\partial V}{\partial t} =0
\end{displaymath} (2.321)

$V=\alpha x^{2}$とおき、$\alpha$を定数とする。上式は

\begin{displaymath}
-x^{2}(\alpha+2-\sqrt{5})(\alpha+2+\sqrt{5})=0
\end{displaymath} (2.322)


\begin{displaymath}
\alpha=-2+\sqrt{5}
\end{displaymath}


\begin{displaymath}
V(x,t)=(-2+\sqrt{5})x^{2}
\end{displaymath} (2.323)

(第5段階)
\begin{displaymath}
\nabla v(x,t)=2(-2+\sqrt{5})x
\end{displaymath} (2.324)


\begin{displaymath}
u_0(x,t)=-\frac{\nabla v}{2}=-(\sqrt{5}-2)x
\end{displaymath} (2.325)

これが求める最適制御法則である。


next up previous
Next: リカッチの方法 (Riccati equation) Up: 最適制御法則 Previous: 最適制御法則
Yasunari SHIDAMA
平成15年5月12日