cpp/latest/_p_p_o_trainer_8h_source.html

// Copyright (C) Entropy Software LLC - All Rights Reserved


#pragma once


#include "CuriosityModule.h"

#include "Object.h"

#include "RLTrainer.h"


namespace SmartEngine

{


#pragma pack(push, 4)

struct PPOTrainerCInfo : RLTrainerCInfo

{

    IGraph* graph = nullptr;


    ICuriosityModule* curiosityModule = nullptr; // Optional


    const char* valueNodeName = "";


    float valueCoefficient = 1.0f;


    float entropyCoefficient = 0.01f;


    float policyClipEpsilon = 0.2f;


    float gaeLambda = 0.95f;


    int trajectorySize = 2048;


    int batchSize = 32;


    int epochCount = 10;


    bool normalizeAdvantage = true;

};

#pragma pack(pop)


class SMARTENGINE_EXPORT IPPOTrainer : public IRLTrainer

{

public:

    SMARTENGINE_DECLARE_CLASS(IPPOTrainer)


    virtual float GetPolicyLoss() = 0;


    virtual float GetValueLoss() = 0;


    virtual float GetEntropyLoss() = 0;

};


SMARTENGINE_EXPORT ObjectPtr<IPPOTrainer> CreatePPOTrainer(const PPOTrainerCInfo& cinfo);


extern "C"

{

    SMARTENGINE_EXPORT ObjPtr PPOTrainer_CreateInstance(const PPOTrainerCInfo& cinfo);

    SMARTENGINE_EXPORT float PPOTrainer_GetPolicyLoss(ObjPtr object);

    SMARTENGINE_EXPORT float PPOTrainer_GetValueLoss(ObjPtr object);

    SMARTENGINE_EXPORT float PPOTrainer_GetEntropyLoss(ObjPtr object);

}


} // namespace SmartEngine