Skip to content

Commit e1d5824

Browse files
committed
corrigindo pequenos detalhes nos slides sobre q-learning
1 parent 82840d2 commit e1d5824

2 files changed

Lines changed: 24 additions & 24 deletions

File tree

-7.89 KB
Binary file not shown.

docs/classes/05_q_learning/q_learning_v2.tex

Lines changed: 24 additions & 24 deletions
Original file line numberDiff line numberDiff line change
@@ -165,24 +165,24 @@
165165

166166
\end{frame}
167167

168-
\begin{frame}{Algoritmo Q-Learning}
169-
170-
\begin{block}{}
171-
Como é que o agente pode saber quais são as melhores ações em cada estado?
172-
\end{block}
173-
174-
\pause
175-
176-
\begin{itemize}
177-
\item A ideia é fazer com que o agente aprenda a função de mapeamento $Q(S,A)$.
178-
Ou seja, que seja capaz de identificar qual é a melhor ação para cada estado
179-
através das suas \textbf{experiências}.
180-
\item \textit{Testando} \textbf{infinitas} vezes o ambiente.
181-
Ou seja, \textit{testando} \textbf{muitas} vezes as combinações entre
182-
\textbf{estados} ($S$) e \textbf{ações} ($A$).
183-
\end{itemize}
184-
185-
\end{frame}
168+
%\begin{frame}{Algoritmo Q-Learning}
169+
%
170+
% \begin{block}{}
171+
% Como é que o agente pode saber quais são as melhores ações em cada estado?
172+
% \end{block}
173+
%
174+
%\pause
175+
%
176+
% \begin{itemize}
177+
% \item A ideia é fazer com que o agente aprenda a função de mapeamento $Q(S,A)$.
178+
% Ou seja, que seja capaz de identificar qual é a melhor ação para cada estado
179+
% através das suas \textbf{experiências}.
180+
% \item \textit{Testando} \textbf{infinitas} vezes o ambiente.
181+
% Ou seja, \textit{testando} \textbf{muitas} vezes as combinações entre
182+
% \textbf{estados} ($S$) e \textbf{ações} ($A$).
183+
% \end{itemize}
184+
%
185+
%\end{frame}
186186

187187
\begin{frame}{Algoritmo Q-Learning}
188188
\begin{algorithmic}
@@ -198,7 +198,7 @@
198198
\STATE$s \leftarrow s'$
199199
\UNTIL {$s$ ser um estado final}
200200
\ENDFOR
201-
\STATE \textbf{return} $Q(s, a)$
201+
\STATE \textbf{return} $Q$
202202
\end{algorithmic}
203203

204204
\vspace{0.2cm}
@@ -222,7 +222,7 @@
222222
\STATE$s \leftarrow s'$
223223
\UNTIL {$s$ ser um estado final}
224224
\ENDFOR
225-
\STATE \textbf{return} $Q(s, a)$
225+
\STATE \textbf{return} $Q$
226226
\end{algorithmic}
227227

228228
\vspace{0.2cm}
@@ -293,7 +293,7 @@
293293
\STATE$s \leftarrow s'$
294294
\UNTIL {$s$ ser um estado final}
295295
\ENDFOR
296-
\STATE \textbf{return} $Q(s, a)$
296+
\STATE \textbf{return} $Q$
297297
\end{algorithmic}
298298
\end{frame}
299299

@@ -339,7 +339,7 @@
339339

340340
\begin{algorithmic}
341341
\STATE \textbf{function} escolha($s$): $a$
342-
\STATE \hspace*{\algorithmicindent} \textbf{return} $\max_{a}{Q(s, a)}$
342+
\STATE \hspace*{\algorithmicindent} \textbf{return} $\arg \max_{A}{Q(s, A)}$
343343
\end{algorithmic}
344344

345345
\vspace{0.3cm}
@@ -364,7 +364,7 @@
364364
\IF{$rv < \epsilon$}
365365
\STATE \textbf{return} uma ação $\alpha$ aleatória em $A$
366366
\ENDIF
367-
\STATE \textbf{return} $\max_{a}{Q(s, a)} $
367+
\STATE \textbf{return} $\arg \max_{A}{Q(s, A)} $
368368
\end{algorithmic}
369369

370370
\vspace{0.3cm}
@@ -386,7 +386,7 @@
386386
\IF{$rv < \epsilon$}
387387
\STATE \textbf{return} uma ação $\alpha$ aleatória em $A$
388388
\ENDIF
389-
\STATE \textbf{return} $\max_{a}{Q(s, a)} $
389+
\STATE \textbf{return} $\arg \max_{A}{Q(s, A)} $
390390
\end{algorithmic}
391391

392392
\vspace{0.3cm}

0 commit comments

Comments
 (0)