Aprendizaje por refuerzo

El Aprendizaje por refuerzo o Aprendizaje reforzado consiste en aprender a decidir ante una situación determinada o decidir qué acción es la más adecuada para lograr un objetivo.

http://clipart-library.com/clipart/1834591.htm

Como parte del aprendizaje automático, inspirada en la psicología conductista, el algoritmo de aprendizaje por refuerzo q-learning recibe siempre algún tipo de valoración acerca de la idoneidad de la respuesta dada. Cuando la respuesta es correcta, el aprendizaje por refuerzo se parece al aprendizaje supervisado: en ambos casos el aprendiz recibe información acerca de lo que es apropiado. Sin embargo, ambas aproximaciones difieren significativamente ante las respuestas erróneas cuando el aprendiz responde de forma inadecuada. En este caso, el aprendizaje supervisado le dice exactamente al aprendiz qué debería haber respondido, mientras que el aprendizaje por refuerzo solo le informa acerca de que el comportamiento ha sido inapropiado. Esta aproximación es mucho más habitual en la naturaleza que el aprendizaje supervisado.