Learning · Tabular Reinforcement Learning

mutable struct Agent
    learner::AbstractReinforcementLearner
    policy::AbstractPolicy
    callback::AbstractCallback

Agent(learner; policy = EpsilonGreedyPolicy(.1),  callback = NoCallback())

Agent(learner::NstepLearner; policy = EpsilonGreedyPolicy(.1), callback = NoCallback())

Replaces policy with SoftmaxPolicy1 for baselearner of type AbstractPolicyGradient.

Agent(learner::AbstractPolicyGradient; policy = SoftmaxPolicy1(), callback = NoCallback())

mutable struct RLSetup
    agent::Agent
    environment
    metric::AbstractEvaluationMetrics
    stoppingcriterion::StoppingCriterion

learn!(learner, policy, callback, environment, metric, stoppingcriterion)

learn!(agent::Agent, environment, metric, stoppingcriterion)

learn!(x::RLSetup)

run!(learner, policy, callback, environment, metric, stoppingcriterion)

run!(agent::Agent, environment, metric, stoppingcriterion)

run!(x::RLSetup)