|
165 | 165 |
|
166 | 166 | \end{frame} |
167 | 167 |
|
168 | | -\begin{frame}{Algoritmo Q-Learning} |
169 | | - |
170 | | - \begin{block}{} |
171 | | - Como é que o agente pode saber quais são as melhores ações em cada estado? |
172 | | - \end{block} |
173 | | - |
174 | | -\pause |
175 | | - |
176 | | - \begin{itemize} |
177 | | - \item A ideia é fazer com que o agente aprenda a função de mapeamento $Q(S,A)$. |
178 | | - Ou seja, que seja capaz de identificar qual é a melhor ação para cada estado |
179 | | - através das suas \textbf{experiências}. |
180 | | - \item \textit{Testando} \textbf{infinitas} vezes o ambiente. |
181 | | - Ou seja, \textit{testando} \textbf{muitas} vezes as combinações entre |
182 | | - \textbf{estados} ($S$) e \textbf{ações} ($A$). |
183 | | - \end{itemize} |
184 | | - |
185 | | -\end{frame} |
| 168 | +%\begin{frame}{Algoritmo Q-Learning} |
| 169 | +% |
| 170 | +% \begin{block}{} |
| 171 | +% Como é que o agente pode saber quais são as melhores ações em cada estado? |
| 172 | +% \end{block} |
| 173 | +% |
| 174 | +%\pause |
| 175 | +% |
| 176 | +% \begin{itemize} |
| 177 | +% \item A ideia é fazer com que o agente aprenda a função de mapeamento $Q(S,A)$. |
| 178 | +% Ou seja, que seja capaz de identificar qual é a melhor ação para cada estado |
| 179 | +% através das suas \textbf{experiências}. |
| 180 | +% \item \textit{Testando} \textbf{infinitas} vezes o ambiente. |
| 181 | +% Ou seja, \textit{testando} \textbf{muitas} vezes as combinações entre |
| 182 | +% \textbf{estados} ($S$) e \textbf{ações} ($A$). |
| 183 | +% \end{itemize} |
| 184 | +% |
| 185 | +%\end{frame} |
186 | 186 |
|
187 | 187 | \begin{frame}{Algoritmo Q-Learning} |
188 | 188 | \begin{algorithmic} |
|
198 | 198 | \STATE$s \leftarrow s'$ |
199 | 199 | \UNTIL {$s$ ser um estado final} |
200 | 200 | \ENDFOR |
201 | | - \STATE \textbf{return} $Q(s, a)$ |
| 201 | + \STATE \textbf{return} $Q$ |
202 | 202 | \end{algorithmic} |
203 | 203 |
|
204 | 204 | \vspace{0.2cm} |
|
222 | 222 | \STATE$s \leftarrow s'$ |
223 | 223 | \UNTIL {$s$ ser um estado final} |
224 | 224 | \ENDFOR |
225 | | - \STATE \textbf{return} $Q(s, a)$ |
| 225 | + \STATE \textbf{return} $Q$ |
226 | 226 | \end{algorithmic} |
227 | 227 |
|
228 | 228 | \vspace{0.2cm} |
|
293 | 293 | \STATE$s \leftarrow s'$ |
294 | 294 | \UNTIL {$s$ ser um estado final} |
295 | 295 | \ENDFOR |
296 | | - \STATE \textbf{return} $Q(s, a)$ |
| 296 | + \STATE \textbf{return} $Q$ |
297 | 297 | \end{algorithmic} |
298 | 298 | \end{frame} |
299 | 299 |
|
|
339 | 339 |
|
340 | 340 | \begin{algorithmic} |
341 | 341 | \STATE \textbf{function} escolha($s$): $a$ |
342 | | - \STATE \hspace*{\algorithmicindent} \textbf{return} $\max_{a}{Q(s, a)}$ |
| 342 | + \STATE \hspace*{\algorithmicindent} \textbf{return} $\arg \max_{A}{Q(s, A)}$ |
343 | 343 | \end{algorithmic} |
344 | 344 |
|
345 | 345 | \vspace{0.3cm} |
|
364 | 364 | \IF{$rv < \epsilon$} |
365 | 365 | \STATE \textbf{return} uma ação $\alpha$ aleatória em $A$ |
366 | 366 | \ENDIF |
367 | | - \STATE \textbf{return} $\max_{a}{Q(s, a)} $ |
| 367 | + \STATE \textbf{return} $\arg \max_{A}{Q(s, A)} $ |
368 | 368 | \end{algorithmic} |
369 | 369 |
|
370 | 370 | \vspace{0.3cm} |
|
386 | 386 | \IF{$rv < \epsilon$} |
387 | 387 | \STATE \textbf{return} uma ação $\alpha$ aleatória em $A$ |
388 | 388 | \ENDIF |
389 | | - \STATE \textbf{return} $\max_{a}{Q(s, a)} $ |
| 389 | + \STATE \textbf{return} $\arg \max_{A}{Q(s, A)} $ |
390 | 390 | \end{algorithmic} |
391 | 391 |
|
392 | 392 | \vspace{0.3cm} |
|
0 commit comments