Aprendizado por Reforço com Super Mario by José Henrique Luckmann

Aprendizado por Reforço com Super Mario by José Henrique Luckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h en-us 2023-08-16 23:35:34 UTC 2023-08-17 00:19:37 UTC hello@padlet.com Aprendizado por Reforço josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663907816 Em aprendizagem por reforço, o agente aprende a partir de uma série de reforços recompensas ou punições.

Por exemplo imagine que queremos ensinar um agente a jogar super mario, primeiramente definimos todas as ações possíveis como andar, pular, virar e etc.

Colocamos ele para jogar inúmeras fazes e cada vez que ele cair em um buraco, encostar em um inimigo ou algo ruim, damos uma punição para ele.
Todas as vezes que ele chegar ao final da fase, damos uma recompensa para ele.

Com isto o agente vai aprendendo os padrões que levam ele ao sucesso. ]]> 2023-08-16 23:41:03 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663907816 Exemplo josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663911308 Super Mario passando de fases impossíveis graças a uma inteligência artificial treinada por meio de reforço ]]> 2023-08-16 23:48:05 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663911308 Aprendizagem Supervisionada josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663916673 Na aprendizagem supervisionada, observamos alguns pares de entrada e criamos uma função que nos leve da entrada até o resultado esperado.

Imagine que queremos classificar as fases do Mario entre fáceis e difíceis.

Nossos dados de entrada poderiam ser:
- tamanho
- quantidade de inimigos
- quantidade de buracos

Previamente classificaríamos as fases entre fáceis e difícil de acordo com a nossa experiencia. Com estes dados o algoritmo criaria uma função que quando informássemos os parâmetros nos diria se a fase é fácil ou difícil ]]> 2023-08-16 23:57:52 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663916673 Aprendizado Não Supervisionado josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663920964 Na aprendizagem não supervisionada, o agente aprende padrões na entrada, embora não seja fornecido nenhum feedback explícito. A tarefa mais comum de aprendizagem não supervisionada é o agrupamento.

Imagine um cenário onde gostaríamos de agrupar os tipos de inimigos do Mário, para isto extraímos uma série de características de cada um como tamanho, cor, movimentação e etc.
O algoritmo criar grupos de acordo com cada característica, deve isolar o alguns devido ao tamanho, diferenciar goombas e koppas por causa da cor e assim por diante]]> 2023-08-17 00:04:06 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663920964 josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663924448 Então podemos entender que os principais elementos do modelo de aprendizado por reforço são as recompensas e punições]]> 2023-08-17 00:09:20 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663924448 Referencias josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663925228 Super Mario com DeepLearning]]> 2023-08-17 00:10:20 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663925228 josehluckmann https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663925651 Livro Stuart Russel]]> 2023-08-17 00:10:50 UTC https://padlet.com/josehluckmann/bpue6421ftomcb2h/wish/2663925651