Reinforcement Learning Algorithms

Introduction

This repository includes implementations of the following algorithms:

Deep Q-Learning: Utilizing experience replay and target networks.
Multi-Armed Bandits: Including strategies like epsilon-greedy and Upper Confidence Bound (UCB).
N-step Tree Backup: Implementation for n-step bootstrapping.
Off-Policy Learning: Algorithms such as Q-learning.
On-Policy Learning: Methods like SARSA.
Thompson Sampling: Bayesian approach for balancing exploration and exploitation.
Expected SARSA: An enhancement over SARSA with expected rewards.
Gradient Preference-Based Methods: Various policy gradient algorithms.
Policy Iteration: Classical dynamic programming algorithm for solving MDPs.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
Comparison.ipynb		Comparison.ipynb
DQLearning.ipynb		DQLearning.ipynb
LICENSE		LICENSE
Multi-armed Bandits report.pdf		Multi-armed Bandits report.pdf
Nsteptree.ipynb		Nsteptree.ipynb
Off policy.ipynb		Off policy.ipynb
On policy.ipynb		On policy.ipynb
README.md		README.md
SARSA.ipynb		SARSA.ipynb
ThompsonSampling.ipynb		ThompsonSampling.ipynb
UCB_and_esilonGreedy.ipynb		UCB_and_esilonGreedy.ipynb
expSARSA.ipynb		expSARSA.ipynb
gradient_preference_based.ipynb		gradient_preference_based.ipynb
policy_iteration.ipynb		policy_iteration.ipynb