{"step": 3576, "episode/length": 893.0, "episode/score": 230.0, "episode/reward_rate": 0.025727069351230425}
{"step": 4400, "eval_episode/length": 584.0, "eval_episode/score": 140.0, "eval_episode/reward_rate": 0.023931623931623933}
{"step": 4404, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 8.774658203125, "train/action_min": 0.0, "train/action_std": 5.131165504455566, "train/actor_opt_grad_norm": 0.00023522968695033342, "train/actor_opt_grad_steps": 1.0, "train/actor_opt_loss": 0.0005829840083606541, "train/adv_mag": 0.00489669619128108, "train/adv_max": 0.00489669619128108, "train/adv_mean": 0.001086220028810203, "train/adv_min": 0.00032651424407958984, "train/adv_std": 0.0008021215326152742, "train/cont_avg": 0.998046875, "train/cont_loss_mean": 1.0779386758804321, "train/cont_loss_std": 0.4459554851055145, "train/cont_neg_acc": 0.5, "train/cont_neg_loss": 0.6054971814155579, "train/cont_pos_acc": 0.1956947147846222, "train/cont_pos_loss": 1.0788631439208984, "train/cont_pred": 0.3719715476036072, "train/cont_rate": 0.998046875, "train/dyn_loss_mean": 6.944710731506348, "train/dyn_loss_std": 0.28463834524154663, "train/extr_critic_critic_opt_grad_norm": 3.3164138793945312, "train/extr_critic_critic_opt_grad_steps": 1.0, "train/extr_critic_critic_opt_loss": 2.3355555534362793, "train/extr_critic_mag": 0.0, "train/extr_critic_max": 0.0, "train/extr_critic_mean": 0.0, "train/extr_critic_min": 0.0, "train/extr_critic_std": 0.0, "train/extr_return_normed_mag": 0.004892514552921057, "train/extr_return_normed_max": 0.004892514552921057, "train/extr_return_normed_mean": 0.001082038157619536, "train/extr_return_normed_min": 0.0003223323728889227, "train/extr_return_normed_std": 0.0008021215326152742, "train/extr_return_rate": 0.0, "train/extr_return_raw_mag": 0.00489669619128108, "train/extr_return_raw_max": 0.00489669619128108, "train/extr_return_raw_mean": 0.0010862199123948812, "train/extr_return_raw_min": 0.00032651424407958984, "train/extr_return_raw_std": 0.0008021215326152742, "train/extr_reward_mag": 0.0005451440811157227, "train/extr_reward_max": 0.0005451440811157227, "train/extr_reward_mean": 0.0004518818750511855, "train/extr_reward_min": 0.00031280517578125, "train/extr_reward_std": 2.939170917670708e-05, "train/image_loss_mean": 3139.067138671875, "train/image_loss_std": 28.973487854003906, "train/model_loss_mean": 3149.85302734375, "train/model_loss_std": 28.972471237182617, "train/model_opt_grad_norm": 8131.59619140625, "train/model_opt_grad_steps": 1.0, "train/model_opt_loss": 3149.85302734375, "train/policy_entropy_mag": 2.8299293518066406, "train/policy_entropy_max": 2.8299293518066406, "train/policy_entropy_mean": 2.613025665283203, "train/policy_entropy_min": 1.6746675968170166, "train/policy_entropy_std": 0.11196392774581909, "train/policy_logprob_mag": 5.513686180114746, "train/policy_logprob_max": -0.4727570116519928, "train/policy_logprob_mean": -2.607424736022949, "train/policy_logprob_min": -5.513686180114746, "train/policy_logprob_std": 0.7228037118911743, "train/policy_randomness_mag": 0.9790883660316467, "train/policy_randomness_max": 0.9790883660316467, "train/policy_randomness_mean": 0.9040449261665344, "train/policy_randomness_min": 0.5793952345848083, "train/policy_randomness_std": 0.03873686119914055, "train/post_ent_mag": 107.69086456298828, "train/post_ent_max": 107.69086456298828, "train/post_ent_mean": 107.5240249633789, "train/post_ent_min": 107.298095703125, "train/post_ent_std": 0.058662720024585724, "train/prior_ent_mag": 108.09215545654297, "train/prior_ent_max": 108.09215545654297, "train/prior_ent_mean": 107.39315795898438, "train/prior_ent_min": 106.6469497680664, "train/prior_ent_std": 0.22554409503936768, "train/rep_loss_mean": 6.944710731506348, "train/rep_loss_std": 0.28463834524154663, "train/reward_avg": 0.234375, "train/reward_loss_mean": 5.541262626647949, "train/reward_loss_std": 9.5367431640625e-07, "train/reward_max_data": 10.0, "train/reward_max_pred": 0.0, "train/reward_neg_acc": 1.0, "train/reward_neg_loss": 5.541263103485107, "train/reward_pos_acc": 0.0, "train/reward_pos_loss": 5.541263580322266, "train/reward_pred": 0.0, "train/reward_rate": 0.0234375, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.669625997543335, "report/cont_loss_std": 0.33079326152801514, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.025729775428772, "report/cont_pos_acc": 0.6095890402793884, "report/cont_pos_loss": 0.6689291000366211, "report/cont_pred": 0.5380421876907349, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 6.99945068359375, "report/dyn_loss_std": 0.27662450075149536, "report/image_loss_mean": 2913.12353515625, "report/image_loss_std": 33.10042190551758, "report/model_loss_mean": 2923.50830078125, "report/model_loss_std": 33.10249710083008, "report/post_ent_mag": 107.28093719482422, "report/post_ent_max": 107.28093719482422, "report/post_ent_mean": 107.0368881225586, "report/post_ent_min": 106.82513427734375, "report/post_ent_std": 0.06876911222934723, "report/prior_ent_mag": 108.14480590820312, "report/prior_ent_max": 108.14480590820312, "report/prior_ent_mean": 107.52953338623047, "report/prior_ent_min": 106.87399291992188, "report/prior_ent_std": 0.20926335453987122, "report/rep_loss_mean": 6.99945068359375, "report/rep_loss_std": 0.27662450075149536, "report/reward_avg": 0.234375, "report/reward_loss_mean": 5.515634059906006, "report/reward_loss_std": 0.0019261565757915378, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.0005353689193725586, "report/reward_neg_acc": 1.0, "report/reward_neg_loss": 5.515595436096191, "report/reward_pos_acc": 0.0, "report/reward_pos_loss": 5.517234802246094, "report/reward_pred": 0.0004480100469663739, "report/reward_rate": 0.0234375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.6242222189903259, "eval/cont_loss_std": 0.3160099983215332, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.8964177370071411, "eval/cont_pos_acc": 0.6487279534339905, "eval/cont_pos_loss": 0.623689591884613, "eval/cont_pred": 0.5607786774635315, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 7.036160469055176, "eval/dyn_loss_std": 0.2603740692138672, "eval/image_loss_mean": 2912.28955078125, "eval/image_loss_std": 31.79776382446289, "eval/model_loss_mean": 2922.6513671875, "eval/model_loss_std": 31.81120491027832, "eval/post_ent_mag": 107.22616577148438, "eval/post_ent_max": 107.22616577148438, "eval/post_ent_mean": 107.02330017089844, "eval/post_ent_min": 106.82512664794922, "eval/post_ent_std": 0.06407413631677628, "eval/prior_ent_mag": 108.19294738769531, "eval/prior_ent_max": 108.19294738769531, "eval/prior_ent_mean": 107.53121185302734, "eval/prior_ent_min": 106.94190216064453, "eval/prior_ent_std": 0.21503739058971405, "eval/rep_loss_mean": 7.036160469055176, "eval/rep_loss_std": 0.2603740692138672, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 5.515802383422852, "eval/reward_loss_std": 0.0019170553423464298, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.0005409717559814453, "eval/reward_neg_acc": 1.0, "eval/reward_neg_loss": 5.515746593475342, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 5.517715930938721, "eval/reward_pred": 0.000444982317276299, "eval/reward_rate": 0.0283203125, "replay/size": 1038.0, "replay/inserts": 1038.0, "replay/samples": 112.0, "replay/insert_wait_avg": 3.3178770473237672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4219965253557478e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 1037.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": 3.1139259743023746e-06, "eval_replay/insert_wait_frac": 1.0, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 83.35576128959656, "timer/env.step_count": 1101.0, "timer/env.step_total": 2.8468594551086426, "timer/env.step_frac": 0.03415312164468172, "timer/env.step_avg": 0.002585703410634553, "timer/env.step_min": 0.002031564712524414, "timer/env.step_max": 0.025745630264282227, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 21.88000178337097, "timer/replay._sample_frac": 0.26248937619746465, "timer/replay._sample_avg": 0.19535715878009796, "timer/replay._sample_min": 0.0019528865814208984, "timer/replay._sample_max": 0.7805824279785156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.26010680198669434, "timer/agent.save_frac": 0.003120441802253178, "timer/agent.save_avg": 0.26010680198669434, "timer/agent.save_min": 0.26010680198669434, "timer/agent.save_max": 0.26010680198669434, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.04057502746582, "timer/agent.policy_frac": 0.12045448175540761, "timer/agent.policy_avg": 10.04057502746582, "timer/agent.policy_min": 10.04057502746582, "timer/agent.policy_max": 10.04057502746582, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 7.939338684082031e-05, "timer/dataset_train_frac": 9.524643001578491e-07, "timer/dataset_train_avg": 7.939338684082031e-05, "timer/dataset_train_min": 7.939338684082031e-05, "timer/dataset_train_max": 7.939338684082031e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.90243744850159, "timer/agent.train_frac": 0.6706487540109437, "timer/agent.train_avg": 55.90243744850159, "timer/agent.train_min": 55.90243744850159, "timer/agent.train_max": 55.90243744850159, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.038744449615479, "timer/agent.report_frac": 0.13242929197496514, "timer/agent.report_avg": 5.519372224807739, "timer/agent.report_min": 0.09692835807800293, "timer/agent.report_max": 10.941816091537476, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001437664031982422, "timer/dataset_eval_frac": 1.7247326516371862e-06, "timer/dataset_eval_avg": 0.0001437664031982422, "timer/dataset_eval_min": 0.0001437664031982422, "timer/dataset_eval_max": 0.0001437664031982422}
{"step": 6916, "episode/length": 834.0, "episode/score": 280.0, "episode/reward_rate": 0.033532934131736525}
{"step": 9508, "episode/length": 647.0, "episode/score": 330.0, "episode/reward_rate": 0.04938271604938271}
{"step": 10328, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.974074492583403, "train/action_min": 0.0, "train/action_std": 3.550770746695029, "train/actor_opt_grad_norm": 0.08777950673892691, "train/actor_opt_grad_steps": 745.0, "train/actor_opt_loss": 0.7068321338376483, "train/adv_mag": 0.8275832375763236, "train/adv_max": 0.8275832375763236, "train/adv_mean": 0.4891213961449024, "train/adv_min": 0.07604287852646431, "train/adv_std": 0.22719701141672763, "train/cont_avg": 0.9991817989864865, "train/cont_loss_mean": 0.006742297504191614, "train/cont_loss_std": 0.1530164799441991, "train/cont_neg_acc": 0.0, "train/cont_neg_loss": 7.105414325540716, "train/cont_pos_acc": 0.9999999995972659, "train/cont_pos_loss": 0.0009137496564673367, "train/cont_pred": 0.999086777503426, "train/cont_rate": 0.9991817989864865, "train/dyn_loss_mean": 1.1356215476989746, "train/dyn_loss_std": 0.009232839757336896, "train/extr_critic_critic_opt_grad_norm": 6.546030785586383, "train/extr_critic_critic_opt_grad_steps": 745.0, "train/extr_critic_critic_opt_loss": 3.7794293809581445, "train/extr_critic_mag": 0.7971002507854152, "train/extr_critic_max": 0.7971002507854152, "train/extr_critic_mean": 0.7959324929128884, "train/extr_critic_min": 0.7829737848526722, "train/extr_critic_std": 0.0005642894403425433, "train/extr_return_normed_mag": 0.85707420010019, "train/extr_return_normed_max": 0.85707420010019, "train/extr_return_normed_mean": 0.5306645966311162, "train/extr_return_normed_min": 0.1180750616492603, "train/extr_return_normed_std": 0.22710127286562645, "train/extr_return_rate": 0.8766988788706225, "train/extr_return_raw_mag": 1.61146345241247, "train/extr_return_raw_max": 1.61146345241247, "train/extr_return_raw_mean": 1.285053878846402, "train/extr_return_raw_min": 0.8724643156605747, "train/extr_return_raw_std": 0.22710127268943028, "train/extr_reward_mag": 0.07987681272867564, "train/extr_reward_max": 0.07987681272867564, "train/extr_reward_mean": 0.07968979372919814, "train/extr_reward_min": 0.07953225116471986, "train/extr_reward_std": 2.7201895130240922e-05, "train/image_loss_mean": 31.227449968054486, "train/image_loss_std": 4.837647695799132, "train/model_loss_mean": 32.2734700731329, "train/model_loss_std": 4.903988986401944, "train/model_opt_grad_norm": 107.65114337044793, "train/model_opt_grad_steps": 745.0, "train/model_opt_loss": 32.2734700731329, "train/policy_entropy_mag": 2.074810024048831, "train/policy_entropy_max": 2.074810024048831, "train/policy_entropy_mean": 1.4968354295234423, "train/policy_entropy_min": 1.2064487456872657, "train/policy_entropy_std": 0.07375353446381318, "train/policy_logprob_mag": 6.292485440099561, "train/policy_logprob_max": -0.42379432194236966, "train/policy_logprob_mean": -1.496411149566238, "train/policy_logprob_min": -6.292485440099561, "train/policy_logprob_std": 1.2938924693577998, "train/policy_randomness_mag": 0.7178350197705062, "train/policy_randomness_max": 0.7178350197705062, "train/policy_randomness_mean": 0.5178695286850672, "train/policy_randomness_min": 0.4174026287085301, "train/policy_randomness_std": 0.02551697225410592, "train/post_ent_mag": 44.22825899639645, "train/post_ent_max": 44.22825899639645, "train/post_ent_mean": 43.426644428356276, "train/post_ent_min": 43.3527861285854, "train/post_ent_std": 0.12368968866664816, "train/prior_ent_mag": 54.80440606297673, "train/prior_ent_max": 54.80440606297673, "train/prior_ent_mean": 53.75842478468611, "train/prior_ent_min": 53.48448637369517, "train/prior_ent_std": 0.15355841616621693, "train/rep_loss_mean": 1.1356215476989746, "train/rep_loss_std": 0.009232839757336896, "train/reward_avg": 0.33605627111486486, "train/reward_loss_mean": 0.3579048239500136, "train/reward_loss_std": 0.6812133387272322, "train/reward_max_data": 11.756756756756756, "train/reward_max_pred": 0.07988337648881448, "train/reward_neg_acc": 0.9597969365029319, "train/reward_neg_loss": 0.23027597677365347, "train/reward_pos_acc": 0.040433290036948955, "train/reward_pos_loss": 4.015072858011401, "train/reward_pred": 0.07958220102748759, "train/reward_rate": 0.033361486486486486, "train_stats/mean_log_entropy": 1.4906699061393738, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.007711964659392834, "report/cont_loss_std": 0.21122384071350098, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 6.76357364654541, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0011079945834353566, "report/cont_pred": 0.9988925457000732, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.0, "report/dyn_loss_std": 0.0, "report/image_loss_mean": 9.204349517822266, "report/image_loss_std": 4.592426776885986, "report/model_loss_mean": 9.941368103027344, "report/model_loss_std": 4.643309593200684, "report/post_ent_mag": 23.053897857666016, "report/post_ent_max": 23.053897857666016, "report/post_ent_mean": 22.250003814697266, "report/post_ent_min": 22.18073081970215, "report/post_ent_std": 0.12035991996526718, "report/prior_ent_mag": 34.9520263671875, "report/prior_ent_max": 34.9520263671875, "report/prior_ent_mean": 34.28243637084961, "report/prior_ent_min": 33.98238754272461, "report/prior_ent_std": 0.10076544433832169, "report/rep_loss_mean": 1.0, "report/rep_loss_std": 0.0, "report/reward_avg": 0.234375, "report/reward_loss_mean": 0.1293061524629593, "report/reward_loss_std": 0.5685247778892517, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.09706950187683105, "report/reward_neg_acc": 1.0, "report/reward_neg_loss": 0.04123067855834961, "report/reward_pos_acc": 0.0, "report/reward_pos_loss": 3.7991178035736084, "report/reward_pred": 0.09699273109436035, "report/reward_rate": 0.0234375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.021070018410682678, "eval/cont_loss_std": 0.3682604432106018, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.81472110748291, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0011082622222602367, "eval/cont_pred": 0.9988924264907837, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 1.0, "eval/dyn_loss_std": 0.0, "eval/image_loss_mean": 8.077221870422363, "eval/image_loss_std": 3.3977773189544678, "eval/model_loss_mean": 8.875303268432617, "eval/model_loss_std": 3.467212677001953, "eval/post_ent_mag": 23.061798095703125, "eval/post_ent_max": 23.061798095703125, "eval/post_ent_mean": 22.247486114501953, "eval/post_ent_min": 22.175434112548828, "eval/post_ent_std": 0.12666413187980652, "eval/prior_ent_mag": 34.9520263671875, "eval/prior_ent_max": 34.9520263671875, "eval/prior_ent_mean": 34.27796936035156, "eval/prior_ent_min": 34.024147033691406, "eval/prior_ent_std": 0.10911408066749573, "eval/rep_loss_mean": 1.0, "eval/rep_loss_std": 0.0, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.177011638879776, "eval/reward_loss_std": 0.7012878060340881, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.09710609912872314, "eval/reward_neg_acc": 0.9999999403953552, "eval/reward_neg_loss": 0.04123077541589737, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 3.799057960510254, "eval/reward_pred": 0.09699314832687378, "eval/reward_rate": 0.0361328125, "replay/size": 2519.0, "replay/inserts": 1481.0, "replay/samples": 23696.0, "replay/insert_wait_avg": 4.868343180695713e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2107570778269127e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.34014797210693, "timer/env.step_count": 1481.0, "timer/env.step_total": 6.6253342628479, "timer/env.step_frac": 0.022898081407930287, "timer/env.step_avg": 0.004473554532645443, "timer/env.step_min": 0.0027620792388916016, "timer/env.step_max": 0.025195837020874023, "timer/replay._sample_count": 23696.0, "timer/replay._sample_total": 335.5512878894806, "timer/replay._sample_frac": 1.1597121596890472, "timer/replay._sample_avg": 0.014160672176294757, "timer/replay._sample_min": 0.0068166255950927734, "timer/replay._sample_max": 0.04661393165588379, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1481.0, "timer/agent.policy_total": 105.23445224761963, "timer/agent.policy_frac": 0.3637049783280144, "timer/agent.policy_avg": 0.07105634858043189, "timer/agent.policy_min": 0.0029201507568359375, "timer/agent.policy_max": 0.08150029182434082, "timer/dataset_train_count": 1481.0, "timer/dataset_train_total": 0.13869762420654297, "timer/dataset_train_frac": 0.0004793583786371525, "timer/dataset_train_avg": 9.365133302264886e-05, "timer/dataset_train_min": 5.507469177246094e-05, "timer/dataset_train_max": 0.0002665519714355469, "timer/agent.train_count": 1481.0, "timer/agent.train_total": 176.15707993507385, "timer/agent.train_frac": 0.6088234943187207, "timer/agent.train_avg": 0.11894468597911806, "timer/agent.train_min": 0.1063392162322998, "timer/agent.train_max": 0.2086482048034668, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2626779079437256, "timer/agent.report_frac": 0.0009078515711862025, "timer/agent.report_avg": 0.1313389539718628, "timer/agent.report_min": 0.09886693954467773, "timer/agent.report_max": 0.16381096839904785, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.512901306152344e-05, "timer/dataset_eval_frac": 3.287791678004329e-07, "timer/dataset_eval_avg": 9.512901306152344e-05, "timer/dataset_eval_min": 9.512901306152344e-05, "timer/dataset_eval_max": 9.512901306152344e-05, "fps": 20.47287643206596}
{"step": 12280, "episode/length": 692.0, "episode/score": 240.0, "episode/reward_rate": 0.03463203463203463}
{"step": 14844, "episode/length": 640.0, "episode/score": 160.0, "episode/reward_rate": 0.0249609984399376}
{"step": 16464, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.70376168045343, "train/action_min": 0.0, "train/action_std": 2.3469727265289406, "train/actor_opt_grad_norm": 0.05440404592994966, "train/actor_opt_grad_steps": 2250.0, "train/actor_opt_loss": 0.4198443051549344, "train/adv_mag": 1.1555578272327098, "train/adv_max": 1.1555578272327098, "train/adv_mean": 0.512144554284663, "train/adv_min": 0.06637745355468949, "train/adv_std": 0.24041096476557988, "train/cont_avg": 0.9988957822712419, "train/cont_loss_mean": 0.008668943961893567, "train/cont_loss_std": 0.1811479682762177, "train/cont_neg_acc": 0.0, "train/cont_neg_loss": 6.79272716613043, "train/cont_pos_acc": 0.9999999984417086, "train/cont_pos_loss": 0.0011795439861647882, "train/cont_pred": 0.9988211716701781, "train/cont_rate": 0.9988957822712419, "train/dyn_loss_mean": 1.0289244137558282, "train/dyn_loss_std": 0.10527724775338178, "train/extr_critic_critic_opt_grad_norm": 2.6088559565201304, "train/extr_critic_critic_opt_grad_steps": 2250.0, "train/extr_critic_critic_opt_loss": 2.008146323409735, "train/extr_critic_mag": 3.0272386603885226, "train/extr_critic_max": 3.0272386603885226, "train/extr_critic_mean": 3.0158972623301485, "train/extr_critic_min": 2.740008806091508, "train/extr_critic_std": 0.009298558868133019, "train/extr_return_normed_mag": 0.9670239414264953, "train/extr_return_normed_max": 0.9670239414264953, "train/extr_return_normed_mean": 0.573294698218115, "train/extr_return_normed_min": 0.1331366705738641, "train/extr_return_normed_std": 0.23861372616945528, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 3.921770931069368, "train/extr_return_raw_max": 3.921770931069368, "train/extr_return_raw_mean": 3.5280418318081526, "train/extr_return_raw_min": 3.0878836602167365, "train/extr_return_raw_std": 0.23861372694860097, "train/extr_reward_mag": 0.09723991272496242, "train/extr_reward_max": 0.09723991272496242, "train/extr_reward_mean": 0.08950922643047532, "train/extr_reward_min": 0.08392040012708676, "train/extr_reward_std": 0.0030958327206343965, "train/image_loss_mean": 9.159168455335829, "train/image_loss_std": 3.97313862532572, "train/model_loss_mean": 9.96424328423793, "train/model_loss_std": 4.033193649030199, "train/model_opt_grad_norm": 33.43828023025413, "train/model_opt_grad_steps": 2250.0, "train/model_opt_loss": 9.96424328423793, "train/policy_entropy_mag": 1.1978117165222666, "train/policy_entropy_max": 1.1978117165222666, "train/policy_entropy_mean": 0.8528334806168002, "train/policy_entropy_min": 0.735753221352116, "train/policy_entropy_std": 0.029969864999692813, "train/policy_logprob_mag": 7.10612415176591, "train/policy_logprob_max": -0.2663140233021741, "train/policy_logprob_mean": -0.8525336724675558, "train/policy_logprob_min": -7.10612415176591, "train/policy_logprob_std": 1.1930465678763544, "train/policy_randomness_mag": 0.4144144212595778, "train/policy_randomness_max": 0.4144144212595778, "train/policy_randomness_mean": 0.2950601450417166, "train/policy_randomness_min": 0.2545531505073597, "train/policy_randomness_std": 0.010368861909347032, "train/post_ent_mag": 26.112372890796536, "train/post_ent_max": 26.112372890796536, "train/post_ent_mean": 24.193275289597853, "train/post_ent_min": 23.166002435621873, "train/post_ent_std": 0.5392699971600295, "train/prior_ent_mag": 32.66424078099868, "train/prior_ent_max": 32.66424078099868, "train/prior_ent_mean": 31.706566530115463, "train/prior_ent_min": 31.199229770236546, "train/prior_ent_std": 0.26576144959217585, "train/rep_loss_mean": 1.0289244137558282, "train/rep_loss_std": 0.10527724775338178, "train/reward_avg": 0.3689236111111111, "train/reward_loss_mean": 0.17905099648568365, "train/reward_loss_std": 0.7248081748002495, "train/reward_max_data": 13.006535947712418, "train/reward_max_pred": 0.09720436965717989, "train/reward_neg_acc": 0.8949912281880411, "train/reward_neg_loss": 0.036759985136050805, "train/reward_pos_acc": 0.13127335294886353, "train/reward_pos_loss": 3.9292186709011303, "train/reward_pred": 0.08815625012894861, "train/reward_rate": 0.03655407475490196, "train_stats/mean_log_entropy": 0.929101288318634, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.007668094709515572, "report/cont_loss_std": 0.1958571970462799, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 6.272005558013916, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0015445976750925183, "report/cont_pred": 0.9984564781188965, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.0860544443130493, "report/dyn_loss_std": 0.3831992745399475, "report/image_loss_mean": 8.875422477722168, "report/image_loss_std": 4.3572001457214355, "report/model_loss_mean": 9.717841148376465, "report/model_loss_std": 4.410150051116943, "report/post_ent_mag": 45.2117919921875, "report/post_ent_max": 45.2117919921875, "report/post_ent_mean": 36.59878158569336, "report/post_ent_min": 29.60562515258789, "report/post_ent_std": 3.2930073738098145, "report/prior_ent_mag": 41.83104705810547, "report/prior_ent_max": 41.83104705810547, "report/prior_ent_mean": 39.17939758300781, "report/prior_ent_min": 36.332786560058594, "report/prior_ent_std": 1.4139734506607056, "report/rep_loss_mean": 1.0860544443130493, "report/rep_loss_std": 0.3831992745399475, "report/reward_avg": 0.380859375, "report/reward_loss_mean": 0.18311800062656403, "report/reward_loss_std": 0.7764397859573364, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.13084042072296143, "report/reward_neg_acc": 0.7817258834838867, "report/reward_neg_loss": 0.029221046715974808, "report/reward_pos_acc": 0.3589743673801422, "report/reward_pos_loss": 4.070002555847168, "report/reward_pred": 0.07087094336748123, "report/reward_rate": 0.0380859375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.015062102116644382, "eval/cont_loss_std": 0.3148413300514221, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.131998062133789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.001134633319452405, "eval/cont_pred": 0.9988667368888855, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 1.1411209106445312, "eval/dyn_loss_std": 0.5234812498092651, "eval/image_loss_mean": 7.592652797698975, "eval/image_loss_std": 3.0965282917022705, "eval/model_loss_mean": 8.43246841430664, "eval/model_loss_std": 3.1947202682495117, "eval/post_ent_mag": 40.42888641357422, "eval/post_ent_max": 40.42888641357422, "eval/post_ent_mean": 33.06422424316406, "eval/post_ent_min": 29.54732894897461, "eval/post_ent_std": 1.7374218702316284, "eval/prior_ent_mag": 40.7099723815918, "eval/prior_ent_max": 40.7099723815918, "eval/prior_ent_mean": 38.224998474121094, "eval/prior_ent_min": 36.40638732910156, "eval/prior_ent_std": 1.1909334659576416, "eval/rep_loss_mean": 1.1411209106445312, "eval/rep_loss_std": 0.5234812498092651, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.14008021354675293, "eval/reward_loss_std": 0.6423521041870117, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.13080132007598877, "eval/reward_neg_acc": 0.6138415336608887, "eval/reward_neg_loss": 0.03468615189194679, "eval/reward_pos_acc": 0.37037038803100586, "eval/reward_pos_loss": 4.031853199005127, "eval/reward_pred": 0.08403842151165009, "eval/reward_rate": 0.0263671875, "replay/size": 4053.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 4.985652659986911e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507650034679429e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1008207798004, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.8743414878845215, "timer/env.step_frac": 0.022906773363770914, "timer/env.step_avg": 0.004481317788712204, "timer/env.step_min": 0.0026290416717529297, "timer/env.step_max": 0.033402442932128906, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 364.9906575679779, "timer/replay._sample_frac": 1.2162267887823957, "timer/replay._sample_avg": 0.014870870989568852, "timer/replay._sample_min": 0.000438690185546875, "timer/replay._sample_max": 0.04068493843078613, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.41702365875244, "timer/agent.policy_frac": 0.3646008810453651, "timer/agent.policy_avg": 0.07132791633556222, "timer/agent.policy_min": 0.0030372142791748047, "timer/agent.policy_max": 0.10021233558654785, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.15217900276184082, "timer/dataset_train_frac": 0.0005070929241926415, "timer/dataset_train_avg": 9.920404352140861e-05, "timer/dataset_train_min": 5.650520324707031e-05, "timer/dataset_train_max": 0.0003211498260498047, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.39173817634583, "timer/agent.train_frac": 0.6077682083721329, "timer/agent.train_avg": 0.11889943818536233, "timer/agent.train_min": 0.1056373119354248, "timer/agent.train_max": 0.2020578384399414, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25834059715270996, "timer/agent.report_frac": 0.000860846019952301, "timer/agent.report_avg": 0.12917029857635498, "timer/agent.report_min": 0.09814858436584473, "timer/agent.report_max": 0.16019201278686523, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.936622619628906e-05, "timer/dataset_eval_frac": 1.9782093911648828e-07, "timer/dataset_eval_avg": 5.936622619628906e-05, "timer/dataset_eval_min": 5.936622619628906e-05, "timer/dataset_eval_max": 5.936622619628906e-05, "fps": 20.445032458867612}
{"step": 17240, "episode/length": 598.0, "episode/score": 260.0, "episode/reward_rate": 0.041736227045075125}
{"step": 19892, "episode/length": 662.0, "episode/score": 230.0, "episode/reward_rate": 0.03469079939668175}
{"step": 22088, "episode/length": 548.0, "episode/score": 290.0, "episode/reward_rate": 0.052823315118397086}
{"step": 22568, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.701210171568627, "train/action_min": 0.0, "train/action_std": 1.3337496955410328, "train/actor_opt_grad_norm": 0.027725700803368895, "train/actor_opt_grad_steps": 3780.0, "train/actor_opt_loss": 0.07409195139931113, "train/adv_mag": 2.0915275855002062, "train/adv_max": 2.0915275855002062, "train/adv_mean": 0.2544328850797481, "train/adv_min": -0.21954393912764156, "train/adv_std": 0.3158716797049529, "train/cont_avg": 0.9987808925653595, "train/cont_loss_mean": 0.00668272707523155, "train/cont_loss_std": 0.13161946178953776, "train/cont_neg_acc": 0.0075075075970039715, "train/cont_neg_loss": 4.434280659164394, "train/cont_pos_acc": 0.9999999984417086, "train/cont_pos_loss": 0.0012456409010803708, "train/cont_pred": 0.9987135443812102, "train/cont_rate": 0.9987808925653595, "train/dyn_loss_mean": 1.4971865937600728, "train/dyn_loss_std": 1.0300422577686559, "train/extr_critic_critic_opt_grad_norm": 2.227423994759329, "train/extr_critic_critic_opt_grad_steps": 3780.0, "train/extr_critic_critic_opt_loss": 1.8892313234167162, "train/extr_critic_mag": 6.454183768602758, "train/extr_critic_max": 6.454183768602758, "train/extr_critic_mean": 4.862339752172333, "train/extr_critic_min": 3.4152068328234106, "train/extr_critic_std": 0.880441177234638, "train/extr_return_normed_mag": 2.2157764707515444, "train/extr_return_normed_max": 2.2157764707515444, "train/extr_return_normed_mean": 0.34755083748133353, "train/extr_return_normed_min": -0.1439512279630316, "train/extr_return_normed_std": 0.3707248958107693, "train/extr_return_rate": 0.9999446865000756, "train/extr_return_raw_mag": 13.78971139122458, "train/extr_return_raw_max": 13.78971139122458, "train/extr_return_raw_mean": 5.534787857454587, "train/extr_return_raw_min": 3.4209300115996717, "train/extr_return_raw_std": 1.7287603406345142, "train/extr_reward_mag": 1.3131953462276584, "train/extr_reward_max": 1.3131953462276584, "train/extr_reward_mean": 0.11768147516143478, "train/extr_reward_min": 0.011530229468750798, "train/extr_reward_std": 0.16054362931526175, "train/image_loss_mean": 7.998434490627712, "train/image_loss_std": 4.34728113498563, "train/model_loss_mean": 9.047455379386353, "train/model_loss_std": 4.433203695646299, "train/model_opt_grad_norm": 31.274582407832924, "train/model_opt_grad_steps": 3780.0, "train/model_opt_loss": 9.047455379386353, "train/policy_entropy_mag": 0.9288097507034252, "train/policy_entropy_max": 0.9288097507034252, "train/policy_entropy_mean": 0.28912652191383387, "train/policy_entropy_min": 0.11939741627258413, "train/policy_entropy_std": 0.17052130756315356, "train/policy_logprob_mag": 7.475682152642144, "train/policy_logprob_max": -0.01712004441670538, "train/policy_logprob_mean": -0.2892850538094838, "train/policy_logprob_min": -7.475682152642144, "train/policy_logprob_std": 0.9484966062252818, "train/policy_randomness_mag": 0.3213461271785443, "train/policy_randomness_max": 0.3213461271785443, "train/policy_randomness_mean": 0.10003091387596785, "train/policy_randomness_min": 0.04130867183257162, "train/policy_randomness_std": 0.058996324672430656, "train/post_ent_mag": 36.589446846955745, "train/post_ent_max": 36.589446846955745, "train/post_ent_mean": 29.61310937669542, "train/post_ent_min": 23.59723941329258, "train/post_ent_std": 2.433292783942877, "train/prior_ent_mag": 37.775421042847476, "train/prior_ent_max": 37.775421042847476, "train/prior_ent_mean": 31.856539695091495, "train/prior_ent_min": 27.76695467132369, "train/prior_ent_std": 2.0933975846159694, "train/rep_loss_mean": 1.4971865937600728, "train/rep_loss_std": 1.0300422577686559, "train/reward_avg": 0.3446691176470588, "train/reward_loss_mean": 0.14402606284696293, "train/reward_loss_std": 0.601956696681727, "train/reward_max_data": 13.071895424836601, "train/reward_max_pred": 0.9956631263097128, "train/reward_neg_acc": 0.7566740664781308, "train/reward_neg_loss": 0.03326692563037272, "train/reward_pos_acc": 0.6897265244445769, "train/reward_pos_loss": 3.3061492224923925, "train/reward_pred": 0.09058225412968716, "train/reward_rate": 0.03407118055555555, "train_stats/mean_log_entropy": 0.38602380951245624, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.004655384458601475, "report/cont_loss_std": 0.13431991636753082, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 4.300254821777344, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0004563623806461692, "report/cont_pred": 0.9995331764221191, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.929817795753479, "report/dyn_loss_std": 1.5770069360733032, "report/image_loss_mean": 7.722095012664795, "report/image_loss_std": 4.378147125244141, "report/model_loss_mean": 8.987430572509766, "report/model_loss_std": 4.5675177574157715, "report/post_ent_mag": 28.768001556396484, "report/post_ent_max": 28.768001556396484, "report/post_ent_mean": 24.079927444458008, "report/post_ent_min": 20.26486587524414, "report/post_ent_std": 1.4746592044830322, "report/prior_ent_mag": 32.316619873046875, "report/prior_ent_max": 32.316619873046875, "report/prior_ent_mean": 25.862051010131836, "report/prior_ent_min": 22.316268920898438, "report/prior_ent_std": 1.390908122062683, "report/rep_loss_mean": 1.929817795753479, "report/rep_loss_std": 1.5770069360733032, "report/reward_avg": 0.3125, "report/reward_loss_mean": 0.10278940945863724, "report/reward_loss_std": 0.3992276191711426, "report/reward_max_data": 10.0, "report/reward_max_pred": 2.9363012313842773, "report/reward_neg_acc": 0.7913306355476379, "report/reward_neg_loss": 0.03632386773824692, "report/reward_pos_acc": 0.9375, "report/reward_pos_loss": 2.1632211208343506, "report/reward_pred": 0.12112478911876678, "report/reward_rate": 0.03125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 0.00021671890863217413, "eval/cont_loss_std": 0.0009354932699352503, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00021671890863217413, "eval/cont_pred": 0.9997837543487549, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 2.7755868434906006, "eval/dyn_loss_std": 2.20796537399292, "eval/image_loss_mean": 6.268123149871826, "eval/image_loss_std": 3.1667370796203613, "eval/model_loss_mean": 8.07354736328125, "eval/model_loss_std": 3.6203153133392334, "eval/post_ent_mag": 27.084697723388672, "eval/post_ent_max": 27.084697723388672, "eval/post_ent_mean": 23.731204986572266, "eval/post_ent_min": 19.746959686279297, "eval/post_ent_std": 1.2280237674713135, "eval/prior_ent_mag": 32.316619873046875, "eval/prior_ent_max": 32.316619873046875, "eval/prior_ent_mean": 25.273767471313477, "eval/prior_ent_min": 22.58542251586914, "eval/prior_ent_std": 1.2371755838394165, "eval/rep_loss_mean": 2.7755868434906006, "eval/rep_loss_std": 2.20796537399292, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.1398550570011139, "eval/reward_loss_std": 0.6141143441200256, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 1.3038008213043213, "eval/reward_neg_acc": 0.608608603477478, "eval/reward_neg_loss": 0.045837026089429855, "eval/reward_pos_acc": 0.47999998927116394, "eval/reward_pos_loss": 3.896815061569214, "eval/reward_pred": 0.11593158543109894, "eval/reward_rate": 0.0244140625, "replay/size": 5579.0, "replay/inserts": 1526.0, "replay/samples": 24416.0, "replay/insert_wait_avg": 5.311765958253553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3277168980119738e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.6971101760864258e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1484467983246, "timer/env.step_count": 1526.0, "timer/env.step_total": 6.712982892990112, "timer/env.step_frac": 0.02236554266596186, "timer/env.step_avg": 0.0043990713584469935, "timer/env.step_min": 0.0026488304138183594, "timer/env.step_max": 0.03392601013183594, "timer/replay._sample_count": 24416.0, "timer/replay._sample_total": 394.99904680252075, "timer/replay._sample_frac": 1.3160122966350982, "timer/replay._sample_avg": 0.016177877080706126, "timer/replay._sample_min": 0.007998943328857422, "timer/replay._sample_max": 0.07984757423400879, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2530848979949951, "timer/agent.save_frac": 0.0008431990926311461, "timer/agent.save_avg": 0.2530848979949951, "timer/agent.save_min": 0.2530848979949951, "timer/agent.save_max": 0.2530848979949951, "timer/agent.policy_count": 1526.0, "timer/agent.policy_total": 108.6048424243927, "timer/agent.policy_frac": 0.3618370962198127, "timer/agent.policy_avg": 0.07116962151008696, "timer/agent.policy_min": 0.0032825469970703125, "timer/agent.policy_max": 0.2634100914001465, "timer/dataset_train_count": 1526.0, "timer/dataset_train_total": 0.17224526405334473, "timer/dataset_train_frac": 0.000573866917822432, "timer/dataset_train_avg": 0.00011287369859327963, "timer/dataset_train_min": 6.723403930664062e-05, "timer/dataset_train_max": 0.0003299713134765625, "timer/agent.train_count": 1526.0, "timer/agent.train_total": 183.29386353492737, "timer/agent.train_frac": 0.6106773681160709, "timer/agent.train_avg": 0.12011393416443471, "timer/agent.train_min": 0.10658693313598633, "timer/agent.train_max": 0.33338165283203125, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25443077087402344, "timer/agent.report_frac": 0.0008476831167644864, "timer/agent.report_avg": 0.12721538543701172, "timer/agent.report_min": 0.09639835357666016, "timer/agent.report_max": 0.15803241729736328, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.817413330078125e-05, "timer/dataset_eval_frac": 1.9381787219398657e-07, "timer/dataset_eval_avg": 5.817413330078125e-05, "timer/dataset_eval_min": 5.817413330078125e-05, "timer/dataset_eval_max": 5.817413330078125e-05, "fps": 20.335362417732544}
{"step": 24648, "episode/length": 639.0, "episode/score": 170.0, "episode/reward_rate": 0.0265625}
{"step": 27388, "episode/length": 684.0, "episode/score": 210.0, "episode/reward_rate": 0.030656934306569343}
{"step": 28704, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 7.700770159952001, "train/action_min": 0.0, "train/action_std": 4.313539212046106, "train/actor_opt_grad_norm": 0.018668745154380995, "train/actor_opt_grad_steps": 5310.0, "train/actor_opt_loss": 0.021340603304565033, "train/adv_mag": 1.189054890785342, "train/adv_max": 1.189054890785342, "train/adv_mean": 0.050597632711668034, "train/adv_min": -0.5079435914560081, "train/adv_std": 0.1338002009719026, "train/cont_avg": 0.9987872753267973, "train/cont_loss_mean": 0.0031745098337101763, "train/cont_loss_std": 0.057261290709801765, "train/cont_neg_acc": 0.21399371157277305, "train/cont_neg_loss": 1.7493210128104348, "train/cont_pos_acc": 0.9998528073036593, "train/cont_pos_loss": 0.0010293097596516068, "train/cont_pred": 0.9987581185266083, "train/cont_rate": 0.9987872753267973, "train/dyn_loss_mean": 2.076711199642007, "train/dyn_loss_std": 1.7572921654757332, "train/extr_critic_critic_opt_grad_norm": 1.2510064661113265, "train/extr_critic_critic_opt_grad_steps": 5310.0, "train/extr_critic_critic_opt_loss": 2.1958165963490806, "train/extr_critic_mag": 16.006511582268608, "train/extr_critic_max": 16.006511582268608, "train/extr_critic_mean": 8.122138406716141, "train/extr_critic_min": 2.1311217227013284, "train/extr_critic_std": 4.4778013151455545, "train/extr_return_normed_mag": 1.9466912021823959, "train/extr_return_normed_max": 1.9466912021823959, "train/extr_return_normed_mean": 0.39369827177789474, "train/extr_return_normed_min": -0.09701241919576051, "train/extr_return_normed_std": 0.34509219920713136, "train/extr_return_rate": 0.998355401886834, "train/extr_return_raw_mag": 34.458877226885626, "train/extr_return_raw_max": 34.458877226885626, "train/extr_return_raw_mean": 8.918496350057763, "train/extr_return_raw_min": 0.948131600236581, "train/extr_return_raw_std": 5.5993155046226155, "train/extr_reward_mag": 7.231966386433521, "train/extr_reward_max": 7.231966386433521, "train/extr_reward_mean": 0.1414049671220234, "train/extr_reward_min": -4.854077607198478e-07, "train/extr_reward_std": 0.5471255547470517, "train/image_loss_mean": 6.363115684658873, "train/image_loss_std": 3.9854453731985653, "train/model_loss_mean": 7.695431391398112, "train/model_loss_std": 4.290108520221087, "train/model_opt_grad_norm": 30.36446149988112, "train/model_opt_grad_steps": 5310.0, "train/model_opt_loss": 7.695431391398112, "train/policy_entropy_mag": 2.1929010480057958, "train/policy_entropy_max": 2.1929010480057958, "train/policy_entropy_mean": 0.742452840399898, "train/policy_entropy_min": 0.08146258818557839, "train/policy_entropy_std": 0.4563337648226545, "train/policy_logprob_mag": 7.49062055076649, "train/policy_logprob_max": -0.009665447055952611, "train/policy_logprob_mean": -0.7428492757619596, "train/policy_logprob_min": -7.49062055076649, "train/policy_logprob_std": 1.2433102489296908, "train/policy_randomness_mag": 0.7586917086364398, "train/policy_randomness_max": 0.7586917086364398, "train/policy_randomness_mean": 0.2568710603647762, "train/policy_randomness_min": 0.028184121815499917, "train/policy_randomness_std": 0.15788065018801908, "train/post_ent_mag": 29.992160996580434, "train/post_ent_max": 29.992160996580434, "train/post_ent_mean": 23.451198203890932, "train/post_ent_min": 18.17130886651332, "train/post_ent_std": 1.570705586788701, "train/prior_ent_mag": 35.41815377528371, "train/prior_ent_max": 35.41815377528371, "train/prior_ent_mean": 25.77649863249336, "train/prior_ent_min": 21.881366941663956, "train/prior_ent_std": 1.7710361005434023, "train/rep_loss_mean": 2.076711199642007, "train/rep_loss_std": 1.7572921654757332, "train/reward_avg": 0.36113664215686275, "train/reward_loss_mean": 0.08311446116981554, "train/reward_loss_std": 0.37308018474407445, "train/reward_max_data": 12.61437908496732, "train/reward_max_pred": 7.6015138018365, "train/reward_neg_acc": 0.8950229968899995, "train/reward_neg_loss": 0.02399542243706878, "train/reward_pos_acc": 0.9422083859350167, "train/reward_pos_loss": 1.6907103069467482, "train/reward_pred": 0.18194421131188185, "train/reward_rate": 0.03580090890522876, "train_stats/mean_log_entropy": 0.5578241646289825, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.007514533121138811, "report/cont_loss_std": 0.10309688001871109, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.8767497539520264, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0020221679005771875, "report/cont_pred": 0.9976844787597656, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.205735921859741, "report/dyn_loss_std": 2.060116767883301, "report/image_loss_mean": 5.42465353012085, "report/image_loss_std": 3.300367832183838, "report/model_loss_mean": 6.801392555236816, "report/model_loss_std": 3.6581690311431885, "report/post_ent_mag": 29.803333282470703, "report/post_ent_max": 29.803333282470703, "report/post_ent_mean": 23.640647888183594, "report/post_ent_min": 18.925901412963867, "report/post_ent_std": 1.4953689575195312, "report/prior_ent_mag": 40.64753723144531, "report/prior_ent_max": 40.64753723144531, "report/prior_ent_mean": 26.212684631347656, "report/prior_ent_min": 22.402982711791992, "report/prior_ent_std": 2.0960381031036377, "report/rep_loss_mean": 2.205735921859741, "report/rep_loss_std": 2.060116767883301, "report/reward_avg": 0.29296875, "report/reward_loss_mean": 0.045782677829265594, "report/reward_loss_std": 0.256172239780426, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.728787422180176, "report/reward_neg_acc": 0.9647886753082275, "report/reward_neg_loss": 0.016872689127922058, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 1.0036671161651611, "report/reward_pred": 0.22078779339790344, "report/reward_rate": 0.029296875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012159444391727448, "eval/cont_loss_std": 0.2727149724960327, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.174436569213867, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00010019475303124636, "eval/cont_pred": 0.9998962879180908, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 4.863759994506836, "eval/dyn_loss_std": 2.8200061321258545, "eval/image_loss_mean": 6.885096073150635, "eval/image_loss_std": 3.857713460922241, "eval/model_loss_mean": 10.007978439331055, "eval/model_loss_std": 4.914661884307861, "eval/post_ent_mag": 32.321712493896484, "eval/post_ent_max": 32.321712493896484, "eval/post_ent_mean": 23.806989669799805, "eval/post_ent_min": 19.52996063232422, "eval/post_ent_std": 1.419463872909546, "eval/prior_ent_mag": 37.53651809692383, "eval/prior_ent_max": 37.53651809692383, "eval/prior_ent_mean": 26.325096130371094, "eval/prior_ent_min": 22.791950225830078, "eval/prior_ent_std": 1.7311474084854126, "eval/rep_loss_mean": 4.863759994506836, "eval/rep_loss_std": 2.8200061321258545, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.19246727228164673, "eval/reward_loss_std": 1.1969313621520996, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.302460670471191, "eval/reward_neg_acc": 0.9334676861763, "eval/reward_neg_loss": 0.023891642689704895, "eval/reward_pos_acc": 0.5, "eval/reward_pos_loss": 5.418312072753906, "eval/reward_pred": 0.11947024613618851, "eval/reward_rate": 0.03125, "replay/size": 7113.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 5.0414494460999886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3318082810691625e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3709068298339844e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.091769695282, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.643466949462891, "timer/env.step_frac": 0.022138117803793066, "timer/env.step_avg": 0.004330812874486891, "timer/env.step_min": 0.002495288848876953, "timer/env.step_max": 0.030823945999145508, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 397.07916927337646, "timer/replay._sample_frac": 1.3231924676793938, "timer/replay._sample_avg": 0.016178258200512406, "timer/replay._sample_min": 0.007482290267944336, "timer/replay._sample_max": 0.04867672920227051, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.64613485336304, "timer/agent.policy_frac": 0.36537534822997475, "timer/agent.policy_avg": 0.07147727174273992, "timer/agent.policy_min": 0.003109455108642578, "timer/agent.policy_max": 0.08866667747497559, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.17138242721557617, "timer/dataset_train_frac": 0.0005711000584574533, "timer/dataset_train_avg": 0.00011172257315226608, "timer/dataset_train_min": 7.510185241699219e-05, "timer/dataset_train_max": 0.0002982616424560547, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.3182418346405, "timer/agent.train_frac": 0.6075416264157107, "timer/agent.train_avg": 0.1188515266197135, "timer/agent.train_min": 0.1063077449798584, "timer/agent.train_max": 0.20526933670043945, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2646818161010742, "timer/agent.report_frac": 0.0008820029165406183, "timer/agent.report_avg": 0.1323409080505371, "timer/agent.report_min": 0.10150456428527832, "timer/agent.report_max": 0.1631772518157959, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.8590962213464113e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "fps": 20.44566765735093}
{"step": 29548, "episode/length": 539.0, "episode/score": 300.0, "episode/reward_rate": 0.05555555555555555}
{"step": 31828, "episode/length": 569.0, "episode/score": 380.0, "episode/reward_rate": 0.06666666666666667}
{"step": 34828, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.427084530101103, "train/action_min": 0.0, "train/action_std": 3.034689650816076, "train/actor_opt_grad_norm": 0.014755485926334765, "train/actor_opt_grad_steps": 6840.0, "train/actor_opt_loss": 0.015240894677345733, "train/adv_mag": 1.0025801214517331, "train/adv_max": 1.0025801214517331, "train/adv_mean": 0.03361597603941762, "train/adv_min": -0.45416759275922586, "train/adv_std": 0.1092532447301874, "train/cont_avg": 0.9985064338235294, "train/cont_loss_mean": 0.002710005505719725, "train/cont_loss_std": 0.04933057371632529, "train/cont_neg_acc": 0.5314049605003073, "train/cont_neg_loss": 1.1377710360891287, "train/cont_pos_acc": 0.9997440393454109, "train/cont_pos_loss": 0.001055559695196042, "train/cont_pred": 0.9984060993381575, "train/cont_rate": 0.9985064338235294, "train/dyn_loss_mean": 2.378326942718107, "train/dyn_loss_std": 2.5481979917077457, "train/extr_critic_critic_opt_grad_norm": 1.3124354357033774, "train/extr_critic_critic_opt_grad_steps": 6840.0, "train/extr_critic_critic_opt_loss": 2.25154777679568, "train/extr_critic_mag": 28.776469810336245, "train/extr_critic_max": 28.776469810336245, "train/extr_critic_mean": 13.150396730385575, "train/extr_critic_min": 1.6673199273402395, "train/extr_critic_std": 7.900210604948156, "train/extr_return_normed_mag": 1.8632635376811806, "train/extr_return_normed_max": 1.8632635376811806, "train/extr_return_normed_mean": 0.38429274083742126, "train/extr_return_normed_min": -0.11977288361602262, "train/extr_return_normed_std": 0.3382602253186157, "train/extr_return_rate": 0.989884216411441, "train/extr_return_raw_mag": 53.528690363067426, "train/extr_return_raw_max": 53.528690363067426, "train/extr_return_raw_mean": 14.041424314960155, "train/extr_return_raw_min": 0.47140319440879075, "train/extr_return_raw_std": 9.086186455745324, "train/extr_reward_mag": 9.889544000812606, "train/extr_reward_max": 9.889544000812606, "train/extr_reward_mean": 0.17037663170519998, "train/extr_reward_min": -3.506155575022978e-05, "train/extr_reward_std": 0.9428406416201124, "train/image_loss_mean": 4.686544228223414, "train/image_loss_std": 2.5249726117825975, "train/model_loss_mean": 6.1623235185161915, "train/model_loss_std": 3.314944949804568, "train/model_opt_grad_norm": 26.644280047198528, "train/model_opt_grad_steps": 6840.0, "train/model_opt_loss": 6.1623235185161915, "train/policy_entropy_mag": 2.3659905288733687, "train/policy_entropy_max": 2.3659905288733687, "train/policy_entropy_mean": 0.8434977948276046, "train/policy_entropy_min": 0.0810367753303129, "train/policy_entropy_std": 0.541785891928704, "train/policy_logprob_mag": 7.49311386993508, "train/policy_logprob_max": -0.009604046717773075, "train/policy_logprob_mean": -0.8431615603515525, "train/policy_logprob_min": -7.49311386993508, "train/policy_logprob_std": 1.3162263616237766, "train/policy_randomness_mag": 0.8185765610800849, "train/policy_randomness_max": 0.8185765610800849, "train/policy_randomness_mean": 0.2918302112934636, "train/policy_randomness_min": 0.028036800706211257, "train/policy_randomness_std": 0.18744505800647673, "train/post_ent_mag": 33.387930153242124, "train/post_ent_max": 33.387930153242124, "train/post_ent_mean": 25.560012804916482, "train/post_ent_min": 19.723002128351748, "train/post_ent_std": 1.7810069805656383, "train/prior_ent_mag": 44.68648795832216, "train/prior_ent_max": 44.68648795832216, "train/prior_ent_mean": 28.108387616724748, "train/prior_ent_min": 22.987417744655236, "train/prior_ent_std": 2.8954964011323217, "train/rep_loss_mean": 2.378326942718107, "train/rep_loss_std": 2.5481979917077457, "train/reward_avg": 0.37141288807189543, "train/reward_loss_mean": 0.04607314348610398, "train/reward_loss_std": 0.2662607678303532, "train/reward_max_data": 12.745098039215685, "train/reward_max_pred": 11.353840553682614, "train/reward_neg_acc": 0.9677910629440757, "train/reward_neg_loss": 0.010025792169305527, "train/reward_pos_acc": 0.9681521763209424, "train/reward_pos_loss": 0.9904612758580376, "train/reward_pred": 0.29037722638424707, "train/reward_rate": 0.036841299019607844, "train_stats/mean_log_entropy": 0.9536025822162628, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0017302562482655048, "report/cont_loss_std": 0.05426706746220589, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.7371551990509033, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.384851152077317e-05, "report/cont_pred": 0.9997948408126831, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.433002471923828, "report/dyn_loss_std": 2.564033269882202, "report/image_loss_mean": 3.954016923904419, "report/image_loss_std": 2.422482490539551, "report/model_loss_mean": 5.46442985534668, "report/model_loss_std": 3.156567335128784, "report/post_ent_mag": 35.48396301269531, "report/post_ent_max": 35.48396301269531, "report/post_ent_mean": 27.187705993652344, "report/post_ent_min": 21.220218658447266, "report/post_ent_std": 2.2611634731292725, "report/prior_ent_mag": 47.321903228759766, "report/prior_ent_max": 47.321903228759766, "report/prior_ent_mean": 29.956485748291016, "report/prior_ent_min": 23.794044494628906, "report/prior_ent_std": 3.3764827251434326, "report/rep_loss_mean": 2.433002471923828, "report/rep_loss_std": 2.564033269882202, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.048881590366363525, "report/reward_loss_std": 0.18951472640037537, "report/reward_max_data": 20.0, "report/reward_max_pred": 12.082677841186523, "report/reward_neg_acc": 0.9595436453819275, "report/reward_neg_loss": 0.009898468852043152, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6752104759216309, "report/reward_pred": 0.5388016700744629, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007079059258103371, "eval/cont_loss_std": 0.22606143355369568, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.23751163482666, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1186291885678656e-05, "eval/cont_pred": 0.9999881386756897, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 8.56859016418457, "eval/dyn_loss_std": 4.798324108123779, "eval/image_loss_mean": 6.260041236877441, "eval/image_loss_std": 3.3004539012908936, "eval/model_loss_mean": 11.640676498413086, "eval/model_loss_std": 5.350505828857422, "eval/post_ent_mag": 35.249969482421875, "eval/post_ent_max": 35.249969482421875, "eval/post_ent_mean": 26.659929275512695, "eval/post_ent_min": 21.285106658935547, "eval/post_ent_std": 1.977934718132019, "eval/prior_ent_mag": 47.321903228759766, "eval/prior_ent_max": 47.321903228759766, "eval/prior_ent_mean": 29.70205307006836, "eval/prior_ent_min": 24.777637481689453, "eval/prior_ent_std": 2.979393720626831, "eval/rep_loss_mean": 8.56859016418457, "eval/rep_loss_std": 4.798324108123779, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.23240166902542114, "eval/reward_loss_std": 1.3545844554901123, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.925931930541992, "eval/reward_neg_acc": 0.9395161271095276, "eval/reward_neg_loss": 0.03489042818546295, "eval/reward_pos_acc": 0.34375, "eval/reward_pos_loss": 6.355249881744385, "eval/reward_pred": 0.13605527579784393, "eval/reward_rate": 0.03125, "replay/size": 8644.0, "replay/inserts": 1531.0, "replay/samples": 24496.0, "replay/insert_wait_avg": 5.095866207668471e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3407541208996017e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1331613063812, "timer/env.step_count": 1531.0, "timer/env.step_total": 6.583082914352417, "timer/env.step_frac": 0.02193387390349809, "timer/env.step_avg": 0.004299858206631232, "timer/env.step_min": 0.00247955322265625, "timer/env.step_max": 0.027735233306884766, "timer/replay._sample_count": 24496.0, "timer/replay._sample_total": 396.58697986602783, "timer/replay._sample_frac": 1.3213700816658005, "timer/replay._sample_avg": 0.016189866911578536, "timer/replay._sample_min": 0.003057241439819336, "timer/replay._sample_max": 0.033264875411987305, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1531.0, "timer/agent.policy_total": 109.69309878349304, "timer/agent.policy_frac": 0.3654814359933936, "timer/agent.policy_avg": 0.07164800704343112, "timer/agent.policy_min": 0.0030257701873779297, "timer/agent.policy_max": 0.08663821220397949, "timer/dataset_train_count": 1531.0, "timer/dataset_train_total": 0.16657447814941406, "timer/dataset_train_frac": 0.0005550019112329007, "timer/dataset_train_avg": 0.0001088010961132685, "timer/dataset_train_min": 7.128715515136719e-05, "timer/dataset_train_max": 0.0002818107604980469, "timer/agent.train_count": 1531.0, "timer/agent.train_total": 182.40239357948303, "timer/agent.train_frac": 0.6077382212133615, "timer/agent.train_avg": 0.11913938182853236, "timer/agent.train_min": 0.10625720024108887, "timer/agent.train_max": 0.4885709285736084, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2593555450439453, "timer/agent.report_frac": 0.0008641349190307918, "timer/agent.report_avg": 0.12967777252197266, "timer/agent.report_min": 0.10054254531860352, "timer/agent.report_max": 0.1588129997253418, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.103515625e-05, "timer/dataset_eval_frac": 2.0336025510921213e-07, "timer/dataset_eval_avg": 6.103515625e-05, "timer/dataset_eval_min": 6.103515625e-05, "timer/dataset_eval_max": 6.103515625e-05, "fps": 20.402842116276116}
{"step": 35608, "episode/length": 944.0, "episode/score": 440.0, "episode/reward_rate": 0.04656084656084656}
{"step": 38336, "episode/length": 681.0, "episode/score": 450.0, "episode/reward_rate": 0.06451612903225806}
{"step": 40336, "episode/length": 499.0, "episode/score": 310.0, "episode/reward_rate": 0.062}
{"step": 40944, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.35888751659518, "train/action_min": 0.0, "train/action_std": 3.315700381409888, "train/actor_opt_grad_norm": 0.01270630521687612, "train/actor_opt_grad_steps": 8370.0, "train/actor_opt_loss": 0.01089077890531793, "train/adv_mag": 0.8558291859096951, "train/adv_max": 0.8554669774435704, "train/adv_mean": 0.019557829775841407, "train/adv_min": -0.3346438722478019, "train/adv_std": 0.07891326748272952, "train/cont_avg": 0.9983404820261438, "train/cont_loss_mean": 0.0025918567649937567, "train/cont_loss_std": 0.04819004666389411, "train/cont_neg_acc": 0.5390710399531927, "train/cont_neg_loss": 1.009865050646858, "train/cont_pos_acc": 0.999699191719878, "train/cont_pos_loss": 0.0009633662784954794, "train/cont_pred": 0.9983464109352211, "train/cont_rate": 0.9983404820261438, "train/dyn_loss_mean": 2.5185677303987393, "train/dyn_loss_std": 3.00105986563988, "train/extr_critic_critic_opt_grad_norm": 1.4682906484292224, "train/extr_critic_critic_opt_grad_steps": 8370.0, "train/extr_critic_critic_opt_loss": 2.166940977370817, "train/extr_critic_mag": 47.11473799063489, "train/extr_critic_max": 47.11473799063489, "train/extr_critic_mean": 18.912141774994097, "train/extr_critic_min": 1.002731140142952, "train/extr_critic_std": 12.760934274960187, "train/extr_return_normed_mag": 1.600543614306481, "train/extr_return_normed_max": 1.600543614306481, "train/extr_return_normed_mean": 0.39134036734992383, "train/extr_return_normed_min": -0.0605939799718851, "train/extr_return_normed_std": 0.32113204467919915, "train/extr_return_rate": 0.9844478076579524, "train/extr_return_raw_mag": 72.07432374143912, "train/extr_return_raw_max": 72.07432374143912, "train/extr_return_raw_mean": 19.7351579977796, "train/extr_return_raw_min": 0.2534940367430643, "train/extr_return_raw_std": 13.896147952360266, "train/extr_reward_mag": 9.980721049838596, "train/extr_reward_max": 9.980721049838596, "train/extr_reward_mean": 0.2101735639708494, "train/extr_reward_min": -2.2641973557815052e-05, "train/extr_reward_std": 1.119168374663085, "train/image_loss_mean": 3.7550662015777787, "train/image_loss_std": 2.0036151588352675, "train/model_loss_mean": 5.312374049541997, "train/model_loss_std": 3.196612239663118, "train/model_opt_grad_norm": 24.185205484527387, "train/model_opt_grad_steps": 8370.0, "train/model_opt_loss": 5.312374049541997, "train/policy_entropy_mag": 2.575871230730044, "train/policy_entropy_max": 2.575871230730044, "train/policy_entropy_mean": 0.9670658532310935, "train/policy_entropy_min": 0.08239688436969433, "train/policy_entropy_std": 0.6604266474449557, "train/policy_logprob_mag": 7.491723309934529, "train/policy_logprob_max": -0.009791882459098606, "train/policy_logprob_mean": -0.9663172379817838, "train/policy_logprob_min": -7.491723309934529, "train/policy_logprob_std": 1.344508067455167, "train/policy_randomness_mag": 0.8911903036965264, "train/policy_randomness_max": 0.8911903036965264, "train/policy_randomness_mean": 0.33458183355191173, "train/policy_randomness_min": 0.028507366155584652, "train/policy_randomness_std": 0.22849194598353767, "train/post_ent_mag": 37.31475720374413, "train/post_ent_max": 37.31475720374413, "train/post_ent_mean": 28.808423671847077, "train/post_ent_min": 21.500543556961357, "train/post_ent_std": 2.285342161172356, "train/prior_ent_mag": 48.21126940359477, "train/prior_ent_max": 48.21126940359477, "train/prior_ent_mean": 31.486276115467344, "train/prior_ent_min": 24.841033661287593, "train/prior_ent_std": 3.473934814041736, "train/rep_loss_mean": 2.5185677303987393, "train/rep_loss_std": 3.00105986563988, "train/reward_avg": 0.40951797385620914, "train/reward_loss_mean": 0.04357535768835957, "train/reward_loss_std": 0.2429291241698795, "train/reward_max_data": 12.418300653594772, "train/reward_max_pred": 11.003078298631058, "train/reward_neg_acc": 0.9702666947265076, "train/reward_neg_loss": 0.009225105501565278, "train/reward_pos_acc": 0.9770067271843456, "train/reward_pos_loss": 0.8714600696283228, "train/reward_pred": 0.3454861409621301, "train/reward_rate": 0.04070286968954248, "train_stats/mean_log_entropy": 0.9073665340741476, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0018694187747314572, "report/cont_loss_std": 0.05322647839784622, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.7019977569580078, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00020751437114086002, "report/cont_pred": 0.999618411064148, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.585631847381592, "report/dyn_loss_std": 3.1848464012145996, "report/image_loss_mean": 3.695148468017578, "report/image_loss_std": 1.8538248538970947, "report/model_loss_mean": 5.29304838180542, "report/model_loss_std": 3.1841840744018555, "report/post_ent_mag": 40.209861755371094, "report/post_ent_max": 40.209861755371094, "report/post_ent_mean": 30.271427154541016, "report/post_ent_min": 23.023597717285156, "report/post_ent_std": 2.554011106491089, "report/prior_ent_mag": 49.29344940185547, "report/prior_ent_max": 49.29344940185547, "report/prior_ent_mean": 33.076438903808594, "report/prior_ent_min": 25.780946731567383, "report/prior_ent_std": 3.6920502185821533, "report/rep_loss_mean": 2.585631847381592, "report/rep_loss_std": 3.1848464012145996, "report/reward_avg": 0.458984375, "report/reward_loss_mean": 0.04465150833129883, "report/reward_loss_std": 0.17707568407058716, "report/reward_max_data": 20.0, "report/reward_max_pred": 9.981002807617188, "report/reward_neg_acc": 0.9529651999473572, "report/reward_neg_loss": 0.01266077533364296, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7248022556304932, "report/reward_pred": 0.37725552916526794, "report/reward_rate": 0.044921875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.263400220836047e-06, "eval/cont_loss_std": 6.510281673399732e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.263400220836047e-06, "eval/cont_pred": 0.9999927878379822, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.355552673339844, "eval/dyn_loss_std": 5.548715591430664, "eval/image_loss_mean": 6.046655654907227, "eval/image_loss_std": 3.1679513454437256, "eval/model_loss_mean": 11.979019165039062, "eval/model_loss_std": 5.77953577041626, "eval/post_ent_mag": 35.7993049621582, "eval/post_ent_max": 35.7993049621582, "eval/post_ent_mean": 29.092208862304688, "eval/post_ent_min": 21.353931427001953, "eval/post_ent_std": 2.064974308013916, "eval/prior_ent_mag": 49.29344940185547, "eval/prior_ent_max": 49.29344940185547, "eval/prior_ent_mean": 33.021156311035156, "eval/prior_ent_min": 27.0117130279541, "eval/prior_ent_std": 2.969972610473633, "eval/rep_loss_mean": 9.355552673339844, "eval/rep_loss_std": 5.548715591430664, "eval/reward_avg": 0.37109375, "eval/reward_loss_mean": 0.31902527809143066, "eval/reward_loss_std": 1.6692020893096924, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.987173080444336, "eval/reward_neg_acc": 0.9279918670654297, "eval/reward_neg_loss": 0.04413542523980141, "eval/reward_pos_acc": 0.2368421107530594, "eval/reward_pos_loss": 7.451694011688232, "eval/reward_pred": 0.15585026144981384, "eval/reward_rate": 0.037109375, "replay/size": 10173.0, "replay/inserts": 1529.0, "replay/samples": 24464.0, "replay/insert_wait_avg": 5.16490424825445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3343799808120478e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0124309062958, "timer/env.step_count": 1529.0, "timer/env.step_total": 6.546615362167358, "timer/env.step_frac": 0.02182114701844502, "timer/env.step_avg": 0.004281632022346212, "timer/env.step_min": 0.0025784969329833984, "timer/env.step_max": 0.032036781311035156, "timer/replay._sample_count": 24464.0, "timer/replay._sample_total": 397.6348886489868, "timer/replay._sample_frac": 1.3253947093051683, "timer/replay._sample_avg": 0.01625387870540332, "timer/replay._sample_min": 0.001972198486328125, "timer/replay._sample_max": 0.08078932762145996, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11594104766845703, "timer/agent.save_frac": 0.0003864541456439497, "timer/agent.save_avg": 0.11594104766845703, "timer/agent.save_min": 0.11594104766845703, "timer/agent.save_max": 0.11594104766845703, "timer/agent.policy_count": 1529.0, "timer/agent.policy_total": 109.43866777420044, "timer/agent.policy_frac": 0.36478044407560534, "timer/agent.policy_avg": 0.07157532228528479, "timer/agent.policy_min": 0.003125429153442383, "timer/agent.policy_max": 0.14097356796264648, "timer/dataset_train_count": 1529.0, "timer/dataset_train_total": 0.17187905311584473, "timer/dataset_train_frac": 0.0005729064378986632, "timer/dataset_train_avg": 0.00011241272277033664, "timer/dataset_train_min": 7.319450378417969e-05, "timer/dataset_train_max": 0.00040030479431152344, "timer/agent.train_count": 1529.0, "timer/agent.train_total": 182.5467185974121, "timer/agent.train_frac": 0.6084638494677167, "timer/agent.train_avg": 0.11938961320955664, "timer/agent.train_min": 0.10671544075012207, "timer/agent.train_max": 0.3231985569000244, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25535011291503906, "timer/agent.report_frac": 0.0008511317752523185, "timer/agent.report_avg": 0.12767505645751953, "timer/agent.report_min": 0.09785795211791992, "timer/agent.report_max": 0.15749216079711914, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.128715515136719e-05, "timer/dataset_eval_frac": 2.3761400464646954e-07, "timer/dataset_eval_avg": 7.128715515136719e-05, "timer/dataset_eval_min": 7.128715515136719e-05, "timer/dataset_eval_max": 7.128715515136719e-05, "fps": 20.384389003470474}
{"step": 42400, "episode/length": 515.0, "episode/score": 280.0, "episode/reward_rate": 0.05426356589147287}
{"step": 44412, "episode/length": 502.0, "episode/score": 380.0, "episode/reward_rate": 0.07554671968190854}
{"step": 46680, "episode/length": 566.0, "episode/score": 410.0, "episode/reward_rate": 0.07054673721340388}
{"step": 47072, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 8.395806605519812, "train/action_min": 0.0, "train/action_std": 3.872429292965559, "train/actor_opt_grad_norm": 0.01161494113054443, "train/actor_opt_grad_steps": 9900.0, "train/actor_opt_loss": 0.00684678859418936, "train/adv_mag": 1.0897974426450292, "train/adv_max": 1.0897974426450292, "train/adv_mean": 0.010786098424646565, "train/adv_min": -0.32184700395157134, "train/adv_std": 0.06097794294941659, "train/cont_avg": 0.9984043096405228, "train/cont_loss_mean": 0.002436849769956811, "train/cont_loss_std": 0.046068700267509116, "train/cont_neg_acc": 0.536772488601624, "train/cont_neg_loss": 0.9109408664554062, "train/cont_pos_acc": 0.9996865196944842, "train/cont_pos_loss": 0.0009236087825618692, "train/cont_pred": 0.9984336740830365, "train/cont_rate": 0.9984043096405228, "train/dyn_loss_mean": 2.652892659692203, "train/dyn_loss_std": 3.462718153311536, "train/extr_critic_critic_opt_grad_norm": 1.4209033605320003, "train/extr_critic_critic_opt_grad_steps": 9900.0, "train/extr_critic_critic_opt_loss": 1.972316336787604, "train/extr_critic_mag": 65.79087542864232, "train/extr_critic_max": 65.79087542864232, "train/extr_critic_mean": 22.4894074084712, "train/extr_critic_min": 0.6057134952420503, "train/extr_critic_std": 16.70562815822028, "train/extr_return_normed_mag": 1.543004277095296, "train/extr_return_normed_max": 1.543004277095296, "train/extr_return_normed_mean": 0.373831177166864, "train/extr_return_normed_min": -0.02732181201728511, "train/extr_return_normed_std": 0.3068156462479261, "train/extr_return_rate": 0.9770765698034, "train/extr_return_raw_mag": 89.9268890330994, "train/extr_return_raw_max": 89.9268890330994, "train/extr_return_raw_mean": 23.107510342317468, "train/extr_return_raw_min": 0.16486532995903413, "train/extr_return_raw_std": 17.556023840810738, "train/extr_reward_mag": 10.168392505521089, "train/extr_reward_max": 10.168392505521089, "train/extr_reward_mean": 0.2233994363569746, "train/extr_reward_min": -1.687162062701057e-05, "train/extr_reward_std": 1.174682612512626, "train/image_loss_mean": 3.2367339336794188, "train/image_loss_std": 1.7201973932241303, "train/model_loss_mean": 4.878422051473381, "train/model_loss_std": 3.2859504939683903, "train/model_opt_grad_norm": 20.722033668966855, "train/model_opt_grad_steps": 9900.0, "train/model_opt_loss": 4.878422051473381, "train/policy_entropy_mag": 2.560730839087293, "train/policy_entropy_max": 2.560730839087293, "train/policy_entropy_mean": 1.1067894385531059, "train/policy_entropy_min": 0.08183519191601697, "train/policy_entropy_std": 0.6767543955566058, "train/policy_logprob_mag": 7.492795283498328, "train/policy_logprob_max": -0.009714839322602047, "train/policy_logprob_mean": -1.1061665579384448, "train/policy_logprob_min": -7.492795283498328, "train/policy_logprob_std": 1.3444001261704888, "train/policy_randomness_mag": 0.885952085451363, "train/policy_randomness_max": 0.885952085451363, "train/policy_randomness_mean": 0.3829228774784437, "train/policy_randomness_min": 0.02831303395233513, "train/policy_randomness_std": 0.23414095612912397, "train/post_ent_mag": 39.26600916245405, "train/post_ent_max": 39.26600916245405, "train/post_ent_mean": 30.89847675647611, "train/post_ent_min": 22.088960186328762, "train/post_ent_std": 2.4892805214800866, "train/prior_ent_mag": 51.99799808178073, "train/prior_ent_max": 51.99799808178073, "train/prior_ent_mean": 33.67960092133167, "train/prior_ent_min": 26.04331667283002, "train/prior_ent_std": 3.8000498752967986, "train/rep_loss_mean": 2.652892659692203, "train/rep_loss_std": 3.462718153311536, "train/reward_avg": 0.4365808823529412, "train/reward_loss_mean": 0.04751566652622488, "train/reward_loss_std": 0.2573719433222721, "train/reward_max_data": 12.61437908496732, "train/reward_max_pred": 11.231187483843636, "train/reward_neg_acc": 0.9678485997362074, "train/reward_neg_loss": 0.009900924384447873, "train/reward_pos_acc": 0.9746356329886742, "train/reward_pos_loss": 0.8839828890133528, "train/reward_pred": 0.36586497616923713, "train/reward_rate": 0.04335171568627451, "train_stats/mean_log_entropy": 1.0210338632265727, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 0.005145450122654438, "report/cont_loss_std": 0.05382666736841202, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.26816222071647644, "report/cont_pos_acc": 0.9980372786521912, "report/cont_pos_loss": 0.0038548866286873817, "report/cont_pred": 0.9932457804679871, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 2.829652786254883, "report/dyn_loss_std": 3.3792269229888916, "report/image_loss_mean": 2.426933765411377, "report/image_loss_std": 1.5075048208236694, "report/model_loss_mean": 4.230649948120117, "report/model_loss_std": 3.104057550430298, "report/post_ent_mag": 40.358131408691406, "report/post_ent_max": 40.358131408691406, "report/post_ent_mean": 32.488807678222656, "report/post_ent_min": 23.36539649963379, "report/post_ent_std": 2.4285266399383545, "report/prior_ent_mag": 53.17580032348633, "report/prior_ent_max": 53.17580032348633, "report/prior_ent_mean": 35.46947479248047, "report/prior_ent_min": 25.51725959777832, "report/prior_ent_std": 3.9110565185546875, "report/rep_loss_mean": 2.829652786254883, "report/rep_loss_std": 3.3792269229888916, "report/reward_avg": 0.78125, "report/reward_loss_mean": 0.10077886283397675, "report/reward_loss_std": 0.540152907371521, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.655759811401367, "report/reward_neg_acc": 0.9534391760826111, "report/reward_neg_loss": 0.014623553492128849, "report/reward_pos_acc": 0.9113924503326416, "report/reward_pos_loss": 1.131371021270752, "report/reward_pred": 0.6465662121772766, "report/reward_rate": 0.0771484375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.401592013891786e-05, "eval/cont_loss_std": 0.0007402434712275863, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.401592013891786e-05, "eval/cont_pred": 0.9999562501907349, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.113382339477539, "eval/dyn_loss_std": 5.268896102905273, "eval/image_loss_mean": 5.227411270141602, "eval/image_loss_std": 3.0686542987823486, "eval/model_loss_mean": 11.046924591064453, "eval/model_loss_std": 5.827293872833252, "eval/post_ent_mag": 42.20296096801758, "eval/post_ent_max": 42.20296096801758, "eval/post_ent_mean": 30.91229820251465, "eval/post_ent_min": 23.050416946411133, "eval/post_ent_std": 2.552793264389038, "eval/prior_ent_mag": 53.17580032348633, "eval/prior_ent_max": 53.17580032348633, "eval/prior_ent_mean": 34.75000762939453, "eval/prior_ent_min": 28.29346466064453, "eval/prior_ent_std": 3.2766077518463135, "eval/rep_loss_mean": 9.113382339477539, "eval/rep_loss_std": 5.268896102905273, "eval/reward_avg": 0.400390625, "eval/reward_loss_mean": 0.35144057869911194, "eval/reward_loss_std": 1.9355090856552124, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.952348709106445, "eval/reward_neg_acc": 0.9471006989479065, "eval/reward_neg_loss": 0.019008830189704895, "eval/reward_pos_acc": 0.2682926654815674, "eval/reward_pos_loss": 8.321693420410156, "eval/reward_pred": 0.08914764970541, "eval/reward_rate": 0.0400390625, "replay/size": 11705.0, "replay/inserts": 1532.0, "replay/samples": 24512.0, "replay/insert_wait_avg": 5.04289532454767e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.323878687293349e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0018548965454, "timer/env.step_count": 1532.0, "timer/env.step_total": 6.539660215377808, "timer/env.step_frac": 0.021798732603280024, "timer/env.step_avg": 0.004268707712387603, "timer/env.step_min": 0.0027260780334472656, "timer/env.step_max": 0.027539730072021484, "timer/replay._sample_count": 24512.0, "timer/replay._sample_total": 397.36271715164185, "timer/replay._sample_frac": 1.3245342009257608, "timer/replay._sample_avg": 0.01621094635899322, "timer/replay._sample_min": 0.006556510925292969, "timer/replay._sample_max": 0.03868246078491211, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1532.0, "timer/agent.policy_total": 109.70482158660889, "timer/agent.policy_frac": 0.3656804776238474, "timer/agent.policy_avg": 0.07160889137507108, "timer/agent.policy_min": 0.003170013427734375, "timer/agent.policy_max": 0.08572030067443848, "timer/dataset_train_count": 1532.0, "timer/dataset_train_total": 0.1663963794708252, "timer/dataset_train_frac": 0.0005546511688342941, "timer/dataset_train_avg": 0.00010861382471985979, "timer/dataset_train_min": 7.295608520507812e-05, "timer/dataset_train_max": 0.0005924701690673828, "timer/agent.train_count": 1532.0, "timer/agent.train_total": 182.3057713508606, "timer/agent.train_frac": 0.6076821472111501, "timer/agent.train_avg": 0.11899854526818576, "timer/agent.train_min": 0.10666251182556152, "timer/agent.train_max": 0.20221614837646484, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25875306129455566, "timer/agent.report_frac": 0.0008625048714574974, "timer/agent.report_avg": 0.12937653064727783, "timer/agent.report_min": 0.09892082214355469, "timer/agent.report_max": 0.15983223915100098, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001049041748046875, "timer/dataset_eval_frac": 3.496784206246436e-07, "timer/dataset_eval_avg": 0.0001049041748046875, "timer/dataset_eval_min": 0.0001049041748046875, "timer/dataset_eval_max": 0.0001049041748046875, "fps": 20.425103176821956}
{"step": 49004, "episode/length": 580.0, "episode/score": 290.0, "episode/reward_rate": 0.04991394148020654}
{"step": 50976, "episode/length": 492.0, "episode/score": 390.0, "episode/reward_rate": 0.07910750507099391}
{"step": 52796, "episode/length": 454.0, "episode/score": 350.0, "episode/reward_rate": 0.07692307692307693}
{"step": 53208, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 8.896445930778206, "train/action_min": 0.0, "train/action_std": 3.99059132631723, "train/actor_opt_grad_norm": 0.010186810760045207, "train/actor_opt_grad_steps": 11435.0, "train/actor_opt_loss": 0.005905002413972208, "train/adv_mag": 1.082925788767926, "train/adv_max": 1.082925788767926, "train/adv_mean": 0.009893338660884939, "train/adv_min": -0.34312874262596105, "train/adv_std": 0.0549539832470866, "train/cont_avg": 0.9983512581168831, "train/cont_loss_mean": 0.002537734692379802, "train/cont_loss_std": 0.048334879966181715, "train/cont_neg_acc": 0.6007812523748726, "train/cont_neg_loss": 0.9192760710284347, "train/cont_pos_acc": 0.9997139658246722, "train/cont_pos_loss": 0.0009234340293209266, "train/cont_pred": 0.9983514160304875, "train/cont_rate": 0.9983512581168831, "train/dyn_loss_mean": 2.7011313066854106, "train/dyn_loss_std": 3.719030847797146, "train/extr_critic_critic_opt_grad_norm": 1.4999712272123857, "train/extr_critic_critic_opt_grad_steps": 11435.0, "train/extr_critic_critic_opt_loss": 1.974639505534977, "train/extr_critic_mag": 86.26572125917906, "train/extr_critic_max": 86.26572125917906, "train/extr_critic_mean": 27.262192874759823, "train/extr_critic_min": 0.3271819732405923, "train/extr_critic_std": 20.564077835578424, "train/extr_return_normed_mag": 1.52773566060252, "train/extr_return_normed_max": 1.52773566060252, "train/extr_return_normed_mean": 0.3770301969988005, "train/extr_return_normed_min": -0.018964945846093612, "train/extr_return_normed_std": 0.3053068707322145, "train/extr_return_rate": 0.9558623812415383, "train/extr_return_raw_mag": 109.04966443544859, "train/extr_return_raw_max": 109.04966443544859, "train/extr_return_raw_mean": 27.961857609934622, "train/extr_return_raw_min": 0.08145176038726584, "train/extr_return_raw_std": 21.516715402727, "train/extr_reward_mag": 10.53565722626525, "train/extr_reward_max": 10.53565722626525, "train/extr_reward_mean": 0.2731597972912835, "train/extr_reward_min": -6.5727667375044385e-06, "train/extr_reward_std": 1.3339210262933334, "train/image_loss_mean": 2.8631065077595896, "train/image_loss_std": 1.5336987740033632, "train/model_loss_mean": 4.534331380546867, "train/model_loss_std": 3.3017077647246325, "train/model_opt_grad_norm": 18.424533955462568, "train/model_opt_grad_steps": 11435.0, "train/model_opt_loss": 4.534331380546867, "train/policy_entropy_mag": 2.5383013842941877, "train/policy_entropy_max": 2.5383013842941877, "train/policy_entropy_mean": 0.9898605501496947, "train/policy_entropy_min": 0.08050878834608313, "train/policy_entropy_std": 0.7034959878240313, "train/policy_logprob_mag": 7.494015114648001, "train/policy_logprob_max": -0.009532779334233953, "train/policy_logprob_mean": -0.98911347907859, "train/policy_logprob_min": -7.494015114648001, "train/policy_logprob_std": 1.3196048055376326, "train/policy_randomness_mag": 0.8781920288290296, "train/policy_randomness_max": 0.8781920288290296, "train/policy_randomness_mean": 0.3424682536876047, "train/policy_randomness_min": 0.027854129744621068, "train/policy_randomness_std": 0.24339291114698758, "train/post_ent_mag": 41.33077009622153, "train/post_ent_max": 41.33077009622153, "train/post_ent_mean": 32.58296379485687, "train/post_ent_min": 22.75230579871636, "train/post_ent_std": 2.665631586855108, "train/prior_ent_mag": 55.23370542154684, "train/prior_ent_max": 55.23370542154684, "train/prior_ent_mean": 35.39907113607828, "train/prior_ent_min": 26.97903348253919, "train/prior_ent_std": 4.104579533849444, "train/rep_loss_mean": 2.7011313066854106, "train/rep_loss_std": 3.719030847797146, "train/reward_avg": 0.47635957792207795, "train/reward_loss_mean": 0.04800833309335368, "train/reward_loss_std": 0.2478122886560567, "train/reward_max_data": 12.857142857142858, "train/reward_max_pred": 11.633147933266379, "train/reward_neg_acc": 0.9690244952579598, "train/reward_neg_loss": 0.009606016351532964, "train/reward_pos_acc": 0.9836504892869429, "train/reward_pos_loss": 0.823188134602138, "train/reward_pred": 0.40447198725365974, "train/reward_rate": 0.04735059862012987, "train_stats/mean_log_entropy": 0.8152777949968973, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002067787863779813, "report/cont_loss_std": 0.003785531036555767, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.016112858429551125, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001912303123390302, "report/cont_pred": 0.9988548755645752, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.699725866317749, "report/dyn_loss_std": 3.859889030456543, "report/image_loss_mean": 2.4366493225097656, "report/image_loss_std": 1.2410507202148438, "report/model_loss_mean": 4.076475620269775, "report/model_loss_std": 3.2024083137512207, "report/post_ent_mag": 42.220333099365234, "report/post_ent_max": 42.220333099365234, "report/post_ent_mean": 33.041526794433594, "report/post_ent_min": 22.82796287536621, "report/post_ent_std": 2.7884037494659424, "report/prior_ent_mag": 57.129425048828125, "report/prior_ent_max": 57.129425048828125, "report/prior_ent_mean": 36.15270233154297, "report/prior_ent_min": 27.66855239868164, "report/prior_ent_std": 4.492150783538818, "report/rep_loss_mean": 2.699725866317749, "report/rep_loss_std": 3.859889030456543, "report/reward_avg": 0.21484375, "report/reward_loss_mean": 0.019784295931458473, "report/reward_loss_std": 0.1386788934469223, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.85822868347168, "report/reward_neg_acc": 0.9810568690299988, "report/reward_neg_loss": 0.0048650093376636505, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7323578596115112, "report/reward_pred": 0.1986050307750702, "report/reward_rate": 0.0205078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0021868969779461622, "eval/cont_loss_std": 0.06445129215717316, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.061222553253174, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00017415429465472698, "eval/cont_pred": 0.999706506729126, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.422040939331055, "eval/dyn_loss_std": 5.580916404724121, "eval/image_loss_mean": 6.22556209564209, "eval/image_loss_std": 2.616619110107422, "eval/model_loss_mean": 13.392102241516113, "eval/model_loss_std": 5.223823070526123, "eval/post_ent_mag": 40.516090393066406, "eval/post_ent_max": 40.516090393066406, "eval/post_ent_mean": 31.765460968017578, "eval/post_ent_min": 24.46075439453125, "eval/post_ent_std": 2.785419225692749, "eval/prior_ent_mag": 57.129425048828125, "eval/prior_ent_max": 57.129425048828125, "eval/prior_ent_mean": 36.431053161621094, "eval/prior_ent_min": 28.87510108947754, "eval/prior_ent_std": 4.012480735778809, "eval/rep_loss_mean": 11.422040939331055, "eval/rep_loss_std": 5.580916404724121, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.31112849712371826, "eval/reward_loss_std": 1.8375999927520752, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.949908256530762, "eval/reward_neg_acc": 0.9517102241516113, "eval/reward_neg_loss": 0.027904460206627846, "eval/reward_pos_acc": 0.10000000894069672, "eval/reward_pos_loss": 9.695284843444824, "eval/reward_pred": 0.07944249361753464, "eval/reward_rate": 0.029296875, "replay/size": 13239.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 4.881519382282839e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3229394673990302e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10637497901917, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.530302047729492, "timer/env.step_frac": 0.021759957775592184, "timer/env.step_avg": 0.004257041752105275, "timer/env.step_min": 0.002562284469604492, "timer/env.step_max": 0.023194074630737305, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 396.60893034935, "timer/replay._sample_frac": 1.3215611643607286, "timer/replay._sample_avg": 0.016159099183073254, "timer/replay._sample_min": 0.0050241947174072266, "timer/replay._sample_max": 0.03921151161193848, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.75399327278137, "timer/agent.policy_frac": 0.365716967126921, "timer/agent.policy_avg": 0.07154758361980533, "timer/agent.policy_min": 0.00312042236328125, "timer/agent.policy_max": 0.08248233795166016, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.1637401580810547, "timer/dataset_train_frac": 0.0005456070638036329, "timer/dataset_train_avg": 0.00010674065063954021, "timer/dataset_train_min": 7.414817810058594e-05, "timer/dataset_train_max": 0.00034046173095703125, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.36968302726746, "timer/agent.train_frac": 0.6076834690366613, "timer/agent.train_avg": 0.11888506064359025, "timer/agent.train_min": 0.10645842552185059, "timer/agent.train_max": 0.20355820655822754, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.256636381149292, "timer/agent.report_frac": 0.0008551513814634353, "timer/agent.report_avg": 0.128318190574646, "timer/agent.report_min": 0.09760260581970215, "timer/agent.report_max": 0.15903377532958984, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.461143493652344e-05, "timer/dataset_eval_frac": 2.1529510974580433e-07, "timer/dataset_eval_avg": 6.461143493652344e-05, "timer/dataset_eval_min": 6.461143493652344e-05, "timer/dataset_eval_max": 6.461143493652344e-05, "fps": 20.44459342380476}
{"step": 54988, "episode/length": 547.0, "episode/score": 410.0, "episode/reward_rate": 0.07481751824817519}
{"step": 57824, "episode/length": 708.0, "episode/score": 510.0, "episode/reward_rate": 0.07052186177715092}
{"step": 59336, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.547768187678717, "train/action_min": 0.0, "train/action_std": 3.7254011444016997, "train/actor_opt_grad_norm": 0.00882076290040429, "train/actor_opt_grad_steps": 12970.0, "train/actor_opt_loss": 0.005393410314580584, "train/adv_mag": 0.9391103727755203, "train/adv_max": 0.9388688231994903, "train/adv_mean": 0.010180830899199921, "train/adv_min": -0.3488592818087223, "train/adv_std": 0.04957035736613024, "train/cont_avg": 0.9982000612745098, "train/cont_loss_mean": 0.0022442043974134243, "train/cont_loss_std": 0.04539879369542558, "train/cont_neg_acc": 0.654325703400692, "train/cont_neg_loss": 0.7678361139917845, "train/cont_pos_acc": 0.9996929227137098, "train/cont_pos_loss": 0.0008326845642151812, "train/cont_pred": 0.998222702079349, "train/cont_rate": 0.9982000612745098, "train/dyn_loss_mean": 2.8038560315674426, "train/dyn_loss_std": 3.989255605959425, "train/extr_critic_critic_opt_grad_norm": 1.5565258677488838, "train/extr_critic_critic_opt_grad_steps": 12970.0, "train/extr_critic_critic_opt_loss": 1.9442079207476448, "train/extr_critic_mag": 107.70220019770603, "train/extr_critic_max": 107.70220019770603, "train/extr_critic_mean": 33.861660477382685, "train/extr_critic_min": 0.21556096061382418, "train/extr_critic_std": 25.497151019526463, "train/extr_return_normed_mag": 1.4877694646517436, "train/extr_return_normed_max": 1.4877694646517436, "train/extr_return_normed_mean": 0.37998592425016015, "train/extr_return_normed_min": -0.017713524443797427, "train/extr_return_normed_std": 0.30439368581849763, "train/extr_return_rate": 0.952120399942585, "train/extr_return_raw_mag": 131.1342556523342, "train/extr_return_raw_max": 131.1342556523342, "train/extr_return_raw_mean": 34.745851242464354, "train/extr_return_raw_min": 0.07010201087184981, "train/extr_return_raw_std": 26.50898090063357, "train/extr_reward_mag": 10.746573460647483, "train/extr_reward_max": 10.746573460647483, "train/extr_reward_mean": 0.32814205213894254, "train/extr_reward_min": -1.0269140106400633e-06, "train/extr_reward_std": 1.5048268032229803, "train/image_loss_mean": 2.5981593365762747, "train/image_loss_std": 1.4141169248842727, "train/model_loss_mean": 4.332026113871655, "train/model_loss_std": 3.3739164467730554, "train/model_opt_grad_norm": 17.733470779618408, "train/model_opt_grad_steps": 12970.0, "train/model_opt_loss": 4.332026113871655, "train/policy_entropy_mag": 2.5521424471163283, "train/policy_entropy_max": 2.5521424471163283, "train/policy_entropy_mean": 0.9005411053015515, "train/policy_entropy_min": 0.08030017840316872, "train/policy_entropy_std": 0.7197497346821953, "train/policy_logprob_mag": 7.494512931973326, "train/policy_logprob_max": -0.00950416536039971, "train/policy_logprob_mean": -0.9002973374977611, "train/policy_logprob_min": -7.494512931973326, "train/policy_logprob_std": 1.3242076175664765, "train/policy_randomness_mag": 0.8829807058658475, "train/policy_randomness_max": 0.8829807058658475, "train/policy_randomness_mean": 0.3115658473734762, "train/policy_randomness_min": 0.027781955629976745, "train/policy_randomness_std": 0.24901632156247408, "train/post_ent_mag": 43.50989634694617, "train/post_ent_max": 43.50989634694617, "train/post_ent_mean": 34.04954621059443, "train/post_ent_min": 22.677543989193985, "train/post_ent_std": 2.8557448558558045, "train/prior_ent_mag": 58.22414460525014, "train/prior_ent_max": 58.22414460525014, "train/prior_ent_mean": 36.957412495332605, "train/prior_ent_min": 27.368985743304485, "train/prior_ent_std": 4.427739286734388, "train/rep_loss_mean": 2.8038560315674426, "train/rep_loss_std": 3.989255605959425, "train/reward_avg": 0.495046977124183, "train/reward_loss_mean": 0.04930895570592553, "train/reward_loss_std": 0.24929401224929523, "train/reward_max_data": 12.287581699346406, "train/reward_max_pred": 11.470097142886493, "train/reward_neg_acc": 0.9676405425165214, "train/reward_neg_loss": 0.00996095732043138, "train/reward_pos_acc": 0.9842087369339139, "train/reward_pos_loss": 0.809578043573043, "train/reward_pred": 0.4254065190070595, "train/reward_rate": 0.049243004493464054, "train_stats/mean_log_entropy": 0.6368811726570129, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.002153252251446247, "report/cont_loss_std": 0.040879346430301666, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11352460086345673, "report/cont_pos_acc": 0.9990215301513672, "report/cont_pos_loss": 0.0019353044917806983, "report/cont_pred": 0.9969097375869751, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.632312774658203, "report/dyn_loss_std": 3.934894561767578, "report/image_loss_mean": 2.2913756370544434, "report/image_loss_std": 1.2705081701278687, "report/model_loss_mean": 3.924449920654297, "report/model_loss_std": 3.2160804271698, "report/post_ent_mag": 44.00139617919922, "report/post_ent_max": 44.00139617919922, "report/post_ent_mean": 34.47549819946289, "report/post_ent_min": 20.85075569152832, "report/post_ent_std": 2.975088357925415, "report/prior_ent_mag": 59.934898376464844, "report/prior_ent_max": 59.934898376464844, "report/prior_ent_mean": 37.48508071899414, "report/prior_ent_min": 26.845863342285156, "report/prior_ent_std": 4.4965081214904785, "report/rep_loss_mean": 2.632312774658203, "report/rep_loss_std": 3.934894561767578, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.0515335388481617, "report/reward_loss_std": 0.2149246335029602, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.006155014038086, "report/reward_neg_acc": 0.9667013883590698, "report/reward_neg_loss": 0.009070099331438541, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6992695927619934, "report/reward_pred": 0.5577318668365479, "report/reward_rate": 0.0615234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 0.0002533712540753186, "eval/cont_loss_std": 0.002859085099771619, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0002533712540753186, "eval/cont_pred": 0.9997506737709045, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 10.21321964263916, "eval/dyn_loss_std": 5.857066631317139, "eval/image_loss_mean": 5.117016315460205, "eval/image_loss_std": 2.684319257736206, "eval/model_loss_mean": 11.47909927368164, "eval/model_loss_std": 5.853750705718994, "eval/post_ent_mag": 44.18904113769531, "eval/post_ent_max": 44.18904113769531, "eval/post_ent_mean": 33.035003662109375, "eval/post_ent_min": 25.114418029785156, "eval/post_ent_std": 2.764315605163574, "eval/prior_ent_mag": 59.934898376464844, "eval/prior_ent_max": 59.934898376464844, "eval/prior_ent_mean": 37.243309020996094, "eval/prior_ent_min": 30.467357635498047, "eval/prior_ent_std": 3.8955047130584717, "eval/rep_loss_mean": 10.21321964263916, "eval/rep_loss_std": 5.857066631317139, "eval/reward_avg": 0.21484375, "eval/reward_loss_mean": 0.23389701545238495, "eval/reward_loss_std": 1.6396046876907349, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 8.107999801635742, "eval/reward_neg_acc": 0.9680638909339905, "eval/reward_neg_loss": 0.010303409770131111, "eval/reward_pos_acc": 0.04545454680919647, "eval/reward_pos_loss": 10.417569160461426, "eval/reward_pred": 0.030912380665540695, "eval/reward_rate": 0.021484375, "replay/size": 14771.0, "replay/inserts": 1532.0, "replay/samples": 24512.0, "replay/insert_wait_avg": 5.006167658315315e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3301134420748479e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.07161688804626, "timer/env.step_count": 1532.0, "timer/env.step_total": 6.6121721267700195, "timer/env.step_frac": 0.02203531342065236, "timer/env.step_avg": 0.004316039247238916, "timer/env.step_min": 0.0025980472564697266, "timer/env.step_max": 0.05167579650878906, "timer/replay._sample_count": 24512.0, "timer/replay._sample_total": 397.57078289985657, "timer/replay._sample_frac": 1.324919654257691, "timer/replay._sample_avg": 0.016219434680966732, "timer/replay._sample_min": 0.0057027339935302734, "timer/replay._sample_max": 0.07817268371582031, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1793832778930664, "timer/agent.save_frac": 0.0005978015506877898, "timer/agent.save_avg": 0.1793832778930664, "timer/agent.save_min": 0.1793832778930664, "timer/agent.save_max": 0.1793832778930664, "timer/agent.policy_count": 1532.0, "timer/agent.policy_total": 109.73496317863464, "timer/agent.policy_frac": 0.36569591058515766, "timer/agent.policy_avg": 0.0716285660434952, "timer/agent.policy_min": 0.003168344497680664, "timer/agent.policy_max": 0.17655420303344727, "timer/dataset_train_count": 1532.0, "timer/dataset_train_total": 0.16880130767822266, "timer/dataset_train_frac": 0.0005625367351594628, "timer/dataset_train_avg": 0.00011018362119988424, "timer/dataset_train_min": 7.200241088867188e-05, "timer/dataset_train_max": 0.0009958744049072266, "timer/agent.train_count": 1532.0, "timer/agent.train_total": 182.2683870792389, "timer/agent.train_frac": 0.6074162860502779, "timer/agent.train_avg": 0.11897414300211416, "timer/agent.train_min": 0.10634064674377441, "timer/agent.train_max": 0.20546531677246094, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2571890354156494, "timer/agent.report_frac": 0.0008570921771371802, "timer/agent.report_avg": 0.1285945177078247, "timer/agent.report_min": 0.09612917900085449, "timer/agent.report_max": 0.16105985641479492, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.029273986816406e-05, "timer/dataset_eval_frac": 1.3427707787236965e-07, "timer/dataset_eval_avg": 4.029273986816406e-05, "timer/dataset_eval_min": 4.029273986816406e-05, "timer/dataset_eval_max": 4.029273986816406e-05, "fps": 20.42043022074113}
{"step": 59524, "episode/length": 424.0, "episode/score": 420.0, "episode/reward_rate": 0.09647058823529411}
{"step": 62076, "episode/length": 637.0, "episode/score": 520.0, "episode/reward_rate": 0.08150470219435736}
{"step": 64760, "episode/length": 670.0, "episode/score": 630.0, "episode/reward_rate": 0.09239940387481371}
{"step": 65480, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.20772800197849, "train/action_min": 0.0, "train/action_std": 3.7355404952903846, "train/actor_opt_grad_norm": 0.007925225718116219, "train/actor_opt_grad_steps": 14505.0, "train/actor_opt_loss": 0.004014578534661741, "train/adv_mag": 0.8122789292753517, "train/adv_max": 0.808070280915731, "train/adv_mean": 0.008586390730138723, "train/adv_min": -0.3960788109666341, "train/adv_std": 0.04505829227628646, "train/cont_avg": 0.9983258928571429, "train/cont_loss_mean": 0.0019469169275151972, "train/cont_loss_std": 0.04140599746333228, "train/cont_neg_acc": 0.6496240626600452, "train/cont_neg_loss": 0.80429456775257, "train/cont_pos_acc": 0.9997775976534014, "train/cont_pos_loss": 0.0006882491562500001, "train/cont_pred": 0.9984008313773515, "train/cont_rate": 0.9983258928571429, "train/dyn_loss_mean": 2.819546047743265, "train/dyn_loss_std": 4.192337872146012, "train/extr_critic_critic_opt_grad_norm": 1.4828785205042208, "train/extr_critic_critic_opt_grad_steps": 14505.0, "train/extr_critic_critic_opt_loss": 1.7895884939602442, "train/extr_critic_mag": 134.13183370813147, "train/extr_critic_max": 134.13183370813147, "train/extr_critic_mean": 42.66809452354134, "train/extr_critic_min": 0.2033799368065673, "train/extr_critic_std": 28.94102583922349, "train/extr_return_normed_mag": 1.47955735511594, "train/extr_return_normed_max": 1.47955735511594, "train/extr_return_normed_mean": 0.40636030129798045, "train/extr_return_normed_min": -0.022184540950027958, "train/extr_return_normed_std": 0.29335649118020934, "train/extr_return_rate": 0.960066674591659, "train/extr_return_raw_mag": 152.2686700697069, "train/extr_return_raw_max": 152.2686700697069, "train/extr_return_raw_mean": 43.537673813956125, "train/extr_return_raw_min": 0.05742400816895745, "train/extr_return_raw_std": 29.754462372172963, "train/extr_reward_mag": 10.636123886356106, "train/extr_reward_max": 10.636123886356106, "train/extr_reward_mean": 0.37833608357937304, "train/extr_reward_min": -2.2371093948166092e-07, "train/extr_reward_std": 1.65912000235025, "train/image_loss_mean": 2.444438615402618, "train/image_loss_std": 1.34685658015214, "train/model_loss_mean": 4.189221741317154, "train/model_loss_std": 3.4452561898664995, "train/model_opt_grad_norm": 16.673127292038558, "train/model_opt_grad_steps": 14505.0, "train/model_opt_loss": 4.189221741317154, "train/policy_entropy_mag": 2.5950745653796505, "train/policy_entropy_max": 2.5950745653796505, "train/policy_entropy_mean": 0.8921717718824164, "train/policy_entropy_min": 0.08034089686615127, "train/policy_entropy_std": 0.6999408285339157, "train/policy_logprob_mag": 7.4939869100397285, "train/policy_logprob_max": -0.009509627979442284, "train/policy_logprob_mean": -0.8920740206520279, "train/policy_logprob_min": -7.4939869100397285, "train/policy_logprob_std": 1.3323583602905273, "train/policy_randomness_mag": 0.8978342003636546, "train/policy_randomness_max": 0.8978342003636546, "train/policy_randomness_mean": 0.3086702563352399, "train/policy_randomness_min": 0.027796043240307988, "train/policy_randomness_std": 0.2421629120196615, "train/post_ent_mag": 45.37267271264807, "train/post_ent_max": 45.37267271264807, "train/post_ent_mean": 35.36726453706816, "train/post_ent_min": 21.565484183175222, "train/post_ent_std": 3.050053520636125, "train/prior_ent_mag": 60.8142056403222, "train/prior_ent_max": 60.8142056403222, "train/prior_ent_mean": 38.27337470611969, "train/prior_ent_min": 26.41823063887559, "train/prior_ent_std": 4.686389687773469, "train/rep_loss_mean": 2.819546047743265, "train/rep_loss_std": 4.192337872146012, "train/reward_avg": 0.5385044642857143, "train/reward_loss_mean": 0.051108581872729514, "train/reward_loss_std": 0.24917416956711125, "train/reward_max_data": 13.051948051948052, "train/reward_max_pred": 11.781150551585409, "train/reward_neg_acc": 0.9676336735099941, "train/reward_neg_loss": 0.00922808884310403, "train/reward_pos_acc": 0.9839566841528014, "train/reward_pos_loss": 0.794348756214241, "train/reward_pred": 0.4677029194963443, "train/reward_rate": 0.05349533279220779, "train_stats/mean_log_entropy": 0.8343323667844137, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0005955043598078191, "report/cont_loss_std": 0.012209452688694, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11158591508865356, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00048700932529754937, "report/cont_pred": 0.9987010955810547, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.5965733528137207, "report/dyn_loss_std": 4.258896827697754, "report/image_loss_mean": 2.328660011291504, "report/image_loss_std": 1.1976230144500732, "report/model_loss_mean": 3.9379262924194336, "report/model_loss_std": 3.3579258918762207, "report/post_ent_mag": 44.604209899902344, "report/post_ent_max": 44.604209899902344, "report/post_ent_mean": 35.03858947753906, "report/post_ent_min": 21.739046096801758, "report/post_ent_std": 3.04607892036438, "report/prior_ent_mag": 61.74578094482422, "report/prior_ent_max": 61.74578094482422, "report/prior_ent_mean": 37.76417922973633, "report/prior_ent_min": 29.52830696105957, "report/prior_ent_std": 4.655074119567871, "report/rep_loss_mean": 2.5965733528137207, "report/rep_loss_std": 4.258896827697754, "report/reward_avg": 0.56640625, "report/reward_loss_mean": 0.05072672665119171, "report/reward_loss_std": 0.2299925535917282, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.669231414794922, "report/reward_neg_acc": 0.9596690535545349, "report/reward_neg_loss": 0.012495058588683605, "report/reward_pos_acc": 0.9824561476707458, "report/reward_pos_loss": 0.6993237137794495, "report/reward_pred": 0.542290210723877, "report/reward_rate": 0.0556640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0021888501942157745, "eval/cont_loss_std": 0.036320000886917114, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5621669292449951, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0016414620913565159, "eval/cont_pred": 0.9981851577758789, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.153291702270508, "eval/dyn_loss_std": 6.603043079376221, "eval/image_loss_mean": 5.5067548751831055, "eval/image_loss_std": 3.029177188873291, "eval/model_loss_mean": 12.658823013305664, "eval/model_loss_std": 6.647521495819092, "eval/post_ent_mag": 42.722381591796875, "eval/post_ent_max": 42.722381591796875, "eval/post_ent_mean": 33.18830108642578, "eval/post_ent_min": 25.53326416015625, "eval/post_ent_std": 2.8165555000305176, "eval/prior_ent_mag": 61.74578094482422, "eval/prior_ent_max": 61.74578094482422, "eval/prior_ent_mean": 37.17129898071289, "eval/prior_ent_min": 29.112335205078125, "eval/prior_ent_std": 4.431854248046875, "eval/rep_loss_mean": 11.153291702270508, "eval/rep_loss_std": 6.603043079376221, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.45790329575538635, "eval/reward_loss_std": 2.3818769454956055, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999401092529297, "eval/reward_neg_acc": 0.9514170289039612, "eval/reward_neg_loss": 0.04195882007479668, "eval/reward_pos_acc": 0.0833333358168602, "eval/reward_pos_loss": 11.87326717376709, "eval/reward_pred": 0.09617771953344345, "eval/reward_rate": 0.03515625, "replay/size": 16307.0, "replay/inserts": 1536.0, "replay/samples": 24576.0, "replay/insert_wait_avg": 4.935543984174728e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.323952650030454e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1610083580017, "timer/env.step_count": 1536.0, "timer/env.step_total": 6.5519118309021, "timer/env.step_frac": 0.021827991139634104, "timer/env.step_avg": 0.004265567598243554, "timer/env.step_min": 0.0024917125701904297, "timer/env.step_max": 0.0299375057220459, "timer/replay._sample_count": 24576.0, "timer/replay._sample_total": 398.0430908203125, "timer/replay._sample_frac": 1.3260985928777496, "timer/replay._sample_avg": 0.016196414828300476, "timer/replay._sample_min": 0.004080772399902344, "timer/replay._sample_max": 0.0419001579284668, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1536.0, "timer/agent.policy_total": 110.2146360874176, "timer/agent.policy_frac": 0.36718505408259, "timer/agent.policy_avg": 0.0717543203694125, "timer/agent.policy_min": 0.0030388832092285156, "timer/agent.policy_max": 0.08922624588012695, "timer/dataset_train_count": 1536.0, "timer/dataset_train_total": 0.16593027114868164, "timer/dataset_train_frac": 0.0005528042168314439, "timer/dataset_train_avg": 0.00010802752027908961, "timer/dataset_train_min": 7.367134094238281e-05, "timer/dataset_train_max": 0.00031447410583496094, "timer/agent.train_count": 1536.0, "timer/agent.train_total": 181.9853117465973, "timer/agent.train_frac": 0.6062923120565467, "timer/agent.train_avg": 0.11848002066835761, "timer/agent.train_min": 0.10661721229553223, "timer/agent.train_max": 0.20840048789978027, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19781947135925293, "timer/agent.report_frac": 0.0006590445322708733, "timer/agent.report_avg": 0.09890973567962646, "timer/agent.report_min": 0.09858870506286621, "timer/agent.report_max": 0.09923076629638672, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.650520324707031e-05, "timer/dataset_eval_frac": 1.8824964493614914e-07, "timer/dataset_eval_avg": 5.650520324707031e-05, "timer/dataset_eval_min": 5.650520324707031e-05, "timer/dataset_eval_max": 5.650520324707031e-05, "fps": 20.467584354252885}
{"step": 68256, "episode/length": 873.0, "episode/score": 570.0, "episode/reward_rate": 0.06407322654462243}
{"step": 71304, "episode/length": 761.0, "episode/score": 440.0, "episode/reward_rate": 0.05774278215223097}
{"step": 71616, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.61368017258987, "train/action_min": 0.0, "train/action_std": 3.7102380235210743, "train/actor_opt_grad_norm": 0.008206146254867704, "train/actor_opt_grad_steps": 16040.0, "train/actor_opt_loss": 0.0037063150020377874, "train/adv_mag": 0.6827250130815443, "train/adv_max": 0.665648451817581, "train/adv_mean": 0.008792391709350483, "train/adv_min": -0.4045477837713715, "train/adv_std": 0.04625504020771949, "train/cont_avg": 0.9984298406862745, "train/cont_loss_mean": 0.0017513175488271028, "train/cont_loss_std": 0.03906380002346398, "train/cont_neg_acc": 0.6819121472595274, "train/cont_neg_loss": 0.7419786709721756, "train/cont_pos_acc": 0.9997825081052344, "train/cont_pos_loss": 0.000667605482980363, "train/cont_pred": 0.998464362683639, "train/cont_rate": 0.9984298406862745, "train/dyn_loss_mean": 2.9418646229637995, "train/dyn_loss_std": 4.420174006543128, "train/extr_critic_critic_opt_grad_norm": 1.4335133300887213, "train/extr_critic_critic_opt_grad_steps": 16040.0, "train/extr_critic_critic_opt_loss": 1.7028554935081333, "train/extr_critic_mag": 150.79370820288565, "train/extr_critic_max": 150.79370820288565, "train/extr_critic_mean": 50.951603010589004, "train/extr_critic_min": 0.20815707188026578, "train/extr_critic_std": 32.31666505103018, "train/extr_return_normed_mag": 1.4615301443081277, "train/extr_return_normed_max": 1.4615301443081277, "train/extr_return_normed_mean": 0.445113716172237, "train/extr_return_normed_min": -0.0225542635151666, "train/extr_return_normed_std": 0.29931831963701183, "train/extr_return_rate": 0.9617528385586209, "train/extr_return_raw_mag": 164.40334519529654, "train/extr_return_raw_max": 164.40334519529654, "train/extr_return_raw_mean": 51.92392688327365, "train/extr_return_raw_min": 0.11558129674955911, "train/extr_return_raw_std": 33.161471684773765, "train/extr_reward_mag": 11.293136758741989, "train/extr_reward_max": 11.293136758741989, "train/extr_reward_mean": 0.410670056452159, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.7550540110644173, "train/image_loss_mean": 2.3610224692650092, "train/image_loss_std": 1.3418191683058645, "train/model_loss_mean": 4.178734808965446, "train/model_loss_std": 3.5789992341808246, "train/model_opt_grad_norm": 16.0292807747336, "train/model_opt_grad_steps": 16040.0, "train/model_opt_loss": 4.178734808965446, "train/policy_entropy_mag": 2.571874615413691, "train/policy_entropy_max": 2.571874615413691, "train/policy_entropy_mean": 0.8940543621973275, "train/policy_entropy_min": 0.08031345353601804, "train/policy_entropy_std": 0.6672884243376115, "train/policy_logprob_mag": 7.494614975125182, "train/policy_logprob_max": -0.009505921110413432, "train/policy_logprob_mean": -0.8930048786736782, "train/policy_logprob_min": -7.494614975125182, "train/policy_logprob_std": 1.3195349850685767, "train/policy_randomness_mag": 0.8898075690456465, "train/policy_randomness_max": 0.8898075690456465, "train/policy_randomness_mean": 0.3093215878687653, "train/policy_randomness_min": 0.027786548498993605, "train/policy_randomness_std": 0.23086595778761346, "train/post_ent_mag": 47.174652099609375, "train/post_ent_max": 47.174652099609375, "train/post_ent_mean": 36.56426909702276, "train/post_ent_min": 21.44206533245012, "train/post_ent_std": 3.247077332602607, "train/prior_ent_mag": 63.047442592047396, "train/prior_ent_max": 63.047442592047396, "train/prior_ent_mean": 39.5639426786136, "train/prior_ent_min": 26.365884282230553, "train/prior_ent_std": 4.957295710744422, "train/rep_loss_mean": 2.9418646229637995, "train/rep_loss_std": 4.420174006543128, "train/reward_avg": 0.5522365196078431, "train/reward_loss_mean": 0.05084224298498989, "train/reward_loss_std": 0.2452069572568719, "train/reward_max_data": 13.4640522875817, "train/reward_max_pred": 12.351301841486514, "train/reward_neg_acc": 0.9686994085124895, "train/reward_neg_loss": 0.008874110110542354, "train/reward_pos_acc": 0.9873965873437769, "train/reward_pos_loss": 0.7728141678704156, "train/reward_pred": 0.48608116415980596, "train/reward_rate": 0.054808772467320264, "train_stats/mean_log_entropy": 0.8986510038375854, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.016342325136065483, "report/cont_loss_std": 0.3545471727848053, "report/cont_neg_acc": 0.25, "report/cont_neg_loss": 4.114208221435547, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.0002722623758018017, "report/cont_pred": 0.9987180233001709, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 3.104555130004883, "report/dyn_loss_std": 4.573243141174316, "report/image_loss_mean": 2.2479398250579834, "report/image_loss_std": 1.3363010883331299, "report/model_loss_mean": 4.193469047546387, "report/model_loss_std": 3.7733101844787598, "report/post_ent_mag": 47.52849578857422, "report/post_ent_max": 47.52849578857422, "report/post_ent_mean": 37.391326904296875, "report/post_ent_min": 18.54355239868164, "report/post_ent_std": 3.7611076831817627, "report/prior_ent_mag": 63.679073333740234, "report/prior_ent_max": 63.679073333740234, "report/prior_ent_mean": 40.52727127075195, "report/prior_ent_min": 25.502580642700195, "report/prior_ent_std": 5.410495758056641, "report/rep_loss_mean": 3.104555130004883, "report/rep_loss_std": 4.573243141174316, "report/reward_avg": 0.76171875, "report/reward_loss_mean": 0.06645366549491882, "report/reward_loss_std": 0.3249155282974243, "report/reward_max_data": 20.0, "report/reward_max_pred": 14.200550079345703, "report/reward_neg_acc": 0.9672996401786804, "report/reward_neg_loss": 0.007749450393021107, "report/reward_pos_acc": 0.9736841917037964, "report/reward_pos_loss": 0.7987114787101746, "report/reward_pred": 0.6674178838729858, "report/reward_rate": 0.07421875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.989873665792402e-06, "eval/cont_loss_std": 7.427520176861435e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.989873665792402e-06, "eval/cont_pred": 0.9999920725822449, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.322221755981445, "eval/dyn_loss_std": 8.250753402709961, "eval/image_loss_mean": 5.617488384246826, "eval/image_loss_std": 3.238976001739502, "eval/model_loss_mean": 13.34261703491211, "eval/model_loss_std": 7.410148620605469, "eval/post_ent_mag": 48.82012176513672, "eval/post_ent_max": 48.82012176513672, "eval/post_ent_mean": 35.575042724609375, "eval/post_ent_min": 26.558273315429688, "eval/post_ent_std": 3.346251964569092, "eval/prior_ent_mag": 63.679073333740234, "eval/prior_ent_max": 63.679073333740234, "eval/prior_ent_mean": 40.41314697265625, "eval/prior_ent_min": 32.80271911621094, "eval/prior_ent_std": 4.786034107208252, "eval/rep_loss_mean": 12.322221755981445, "eval/rep_loss_std": 8.250753402709961, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.33178773522377014, "eval/reward_loss_std": 2.0324289798736572, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.992653846740723, "eval/reward_neg_acc": 0.9577889442443848, "eval/reward_neg_loss": 0.03139079734683037, "eval/reward_pos_acc": 0.06896551698446274, "eval/reward_pos_loss": 10.638509750366211, "eval/reward_pred": 0.07297243922948837, "eval/reward_rate": 0.0283203125, "replay/size": 17841.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 4.9513042206248215e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319675588545619e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3262033462524414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06835651397705, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.537837505340576, "timer/env.step_frac": 0.02178782721808271, "timer/env.step_avg": 0.004261954045202462, "timer/env.step_min": 0.001850128173828125, "timer/env.step_max": 0.03225207328796387, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 392.68335938453674, "timer/replay._sample_frac": 1.3086463496068295, "timer/replay._sample_avg": 0.01599915903620179, "timer/replay._sample_min": 0.0049512386322021484, "timer/replay._sample_max": 0.045148611068725586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.9115891456604, "timer/agent.policy_frac": 0.36628850313492073, "timer/agent.policy_avg": 0.07165031886940053, "timer/agent.policy_min": 0.0030930042266845703, "timer/agent.policy_max": 0.08192300796508789, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.15978121757507324, "timer/dataset_train_frac": 0.0005324827297063918, "timer/dataset_train_avg": 0.0001041598550033072, "timer/dataset_train_min": 6.937980651855469e-05, "timer/dataset_train_max": 0.0002493858337402344, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.18786454200745, "timer/agent.train_frac": 0.6071545385810156, "timer/agent.train_avg": 0.11876653490352507, "timer/agent.train_min": 0.10636711120605469, "timer/agent.train_max": 0.20198774337768555, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2605748176574707, "timer/agent.report_frac": 0.0008683848596522481, "timer/agent.report_avg": 0.13028740882873535, "timer/agent.report_min": 0.10011982917785645, "timer/agent.report_max": 0.16045498847961426, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.9114227294921875e-05, "timer/dataset_eval_frac": 1.636767963990037e-07, "timer/dataset_eval_avg": 4.9114227294921875e-05, "timer/dataset_eval_min": 4.9114227294921875e-05, "timer/dataset_eval_max": 4.9114227294921875e-05, "fps": 20.44729981832175}
{"step": 73924, "episode/length": 654.0, "episode/score": 440.0, "episode/reward_rate": 0.06717557251908397}
{"step": 75692, "episode/length": 441.0, "episode/score": 440.0, "episode/reward_rate": 0.09954751131221719}
{"step": 77736, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.23696919360192, "train/action_min": 0.0, "train/action_std": 3.7412259485207353, "train/actor_opt_grad_norm": 0.00794694978695095, "train/actor_opt_grad_steps": 17570.0, "train/actor_opt_loss": 0.003415409601634, "train/adv_mag": 0.5414926257787966, "train/adv_max": 0.5128263203926335, "train/adv_mean": 0.006614521355444285, "train/adv_min": -0.4097494410923104, "train/adv_std": 0.041162745978415405, "train/cont_avg": 0.9985638786764706, "train/cont_loss_mean": 0.001582567636234175, "train/cont_loss_std": 0.036050424628089245, "train/cont_neg_acc": 0.7074970506932124, "train/cont_neg_loss": 0.7055534722840544, "train/cont_pos_acc": 0.9997633021641401, "train/cont_pos_loss": 0.0006235339716812442, "train/cont_pred": 0.9985640742420371, "train/cont_rate": 0.9985638786764706, "train/dyn_loss_mean": 2.894799874498953, "train/dyn_loss_std": 4.498968199187634, "train/extr_critic_critic_opt_grad_norm": 1.3585648330208522, "train/extr_critic_critic_opt_grad_steps": 17570.0, "train/extr_critic_critic_opt_loss": 1.6171977091458887, "train/extr_critic_mag": 168.8680506188885, "train/extr_critic_max": 168.8680506188885, "train/extr_critic_mean": 61.01005185195823, "train/extr_critic_min": 0.1754146977966907, "train/extr_critic_std": 36.98702205084508, "train/extr_return_normed_mag": 1.3937446771104351, "train/extr_return_normed_max": 1.3937446771104351, "train/extr_return_normed_mean": 0.4612697956998364, "train/extr_return_normed_min": -0.026697411521655976, "train/extr_return_normed_std": 0.2977114660677567, "train/extr_return_rate": 0.9562160080554438, "train/extr_return_raw_mag": 179.69737178827424, "train/extr_return_raw_max": 179.69737178827424, "train/extr_return_raw_mean": 61.84486194685394, "train/extr_return_raw_min": 0.10952893956229577, "train/extr_return_raw_std": 37.666259329303415, "train/extr_reward_mag": 11.602348433600532, "train/extr_reward_max": 11.602348433600532, "train/extr_reward_mean": 0.4439906378587087, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.8459187644759034, "train/image_loss_mean": 2.1767430508058836, "train/image_loss_std": 1.2201745556850059, "train/model_loss_mean": 3.9650060257880515, "train/model_loss_std": 3.5229051440369847, "train/model_opt_grad_norm": 15.43598278519375, "train/model_opt_grad_steps": 17570.0, "train/model_opt_loss": 3.9650060257880515, "train/policy_entropy_mag": 2.638911596310684, "train/policy_entropy_max": 2.638911596310684, "train/policy_entropy_mean": 0.9706400889976352, "train/policy_entropy_min": 0.0802338084851215, "train/policy_entropy_std": 0.7132132871478212, "train/policy_logprob_mag": 7.494990065206889, "train/policy_logprob_max": -0.009495111736255923, "train/policy_logprob_mean": -0.9712038585563111, "train/policy_logprob_min": -7.494990065206889, "train/policy_logprob_std": 1.3517376293543897, "train/policy_randomness_mag": 0.9130007753185198, "train/policy_randomness_max": 0.9130007753185198, "train/policy_randomness_mean": 0.3358184326123568, "train/policy_randomness_min": 0.027758993269279112, "train/policy_randomness_std": 0.24675486689689113, "train/post_ent_mag": 47.14324547262753, "train/post_ent_max": 47.14324547262753, "train/post_ent_mean": 37.31537538416245, "train/post_ent_min": 21.312460780922883, "train/post_ent_std": 3.205273894702687, "train/prior_ent_mag": 64.75255627102322, "train/prior_ent_max": 64.75255627102322, "train/prior_ent_mean": 40.26811941308913, "train/prior_ent_min": 26.54372238957025, "train/prior_ent_std": 4.943151941486433, "train/rep_loss_mean": 2.894799874498953, "train/rep_loss_std": 4.498968199187634, "train/reward_avg": 0.5700444240196079, "train/reward_loss_mean": 0.0498004833820696, "train/reward_loss_std": 0.2403273367219501, "train/reward_max_data": 13.333333333333334, "train/reward_max_pred": 12.221106579101164, "train/reward_neg_acc": 0.9728248551780102, "train/reward_neg_loss": 0.007907190538175842, "train/reward_pos_acc": 0.9884693770626791, "train/reward_pos_loss": 0.7464254295903873, "train/reward_pred": 0.5067442439350427, "train/reward_rate": 0.05662147671568627, "train_stats/mean_log_entropy": 0.8551788330078125, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002869430463761091, "report/cont_loss_std": 0.003080709371715784, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.03402212634682655, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002539663400966674, "report/cont_pred": 0.9988065958023071, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.508928060531616, "report/dyn_loss_std": 4.475338459014893, "report/image_loss_mean": 2.062926769256592, "report/image_loss_std": 1.1672433614730835, "report/model_loss_mean": 4.2298150062561035, "report/model_loss_std": 3.457890272140503, "report/post_ent_mag": 46.30745315551758, "report/post_ent_max": 46.30745315551758, "report/post_ent_mean": 38.34636688232422, "report/post_ent_min": 14.931793212890625, "report/post_ent_std": 3.125990390777588, "report/prior_ent_mag": 65.3876953125, "report/prior_ent_max": 65.3876953125, "report/prior_ent_mean": 41.487945556640625, "report/prior_ent_min": 27.853666305541992, "report/prior_ent_std": 4.702301502227783, "report/rep_loss_mean": 3.508928060531616, "report/rep_loss_std": 4.475338459014893, "report/reward_avg": 0.712890625, "report/reward_loss_mean": 0.06124451011419296, "report/reward_loss_std": 0.23349380493164062, "report/reward_max_data": 20.0, "report/reward_max_pred": 10.005680084228516, "report/reward_neg_acc": 0.960084080696106, "report/reward_neg_loss": 0.011297998018562794, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7216483950614929, "report/reward_pred": 0.599856436252594, "report/reward_rate": 0.0703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0032694546971470118, "eval/cont_loss_std": 0.08887689560651779, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.8385651111602783, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0004979050136171281, "eval/cont_pred": 0.9994654059410095, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.588193893432617, "eval/dyn_loss_std": 8.549829483032227, "eval/image_loss_mean": 6.084744453430176, "eval/image_loss_std": 3.314600706100464, "eval/model_loss_mean": 15.13176441192627, "eval/model_loss_std": 7.761117935180664, "eval/post_ent_mag": 49.33110046386719, "eval/post_ent_max": 49.33110046386719, "eval/post_ent_mean": 36.729949951171875, "eval/post_ent_min": 27.246789932250977, "eval/post_ent_std": 3.571075439453125, "eval/prior_ent_mag": 65.3876953125, "eval/prior_ent_max": 65.3876953125, "eval/prior_ent_mean": 42.90495300292969, "eval/prior_ent_min": 31.02701759338379, "eval/prior_ent_std": 4.707761764526367, "eval/rep_loss_mean": 14.588193893432617, "eval/rep_loss_std": 8.549829483032227, "eval/reward_avg": 0.205078125, "eval/reward_loss_mean": 0.2908339202404022, "eval/reward_loss_std": 1.7214070558547974, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.742768287658691, "eval/reward_neg_acc": 0.9072781801223755, "eval/reward_neg_loss": 0.06681742519140244, "eval/reward_pos_acc": 0.0476190485060215, "eval/reward_pos_loss": 10.990288734436035, "eval/reward_pred": 0.19321665167808533, "eval/reward_rate": 0.0205078125, "replay/size": 19371.0, "replay/inserts": 1530.0, "replay/samples": 24480.0, "replay/insert_wait_avg": 5.019723979476231e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3266221370572358e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4156103134155273e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06099033355713, "timer/env.step_count": 1530.0, "timer/env.step_total": 6.5531651973724365, "timer/env.step_frac": 0.02183944400799229, "timer/env.step_avg": 0.00428311450808656, "timer/env.step_min": 0.0025055408477783203, "timer/env.step_max": 0.029466867446899414, "timer/replay._sample_count": 24480.0, "timer/replay._sample_total": 399.1430549621582, "timer/replay._sample_frac": 1.3302064174301977, "timer/replay._sample_avg": 0.016304863356297314, "timer/replay._sample_min": 0.008118867874145508, "timer/replay._sample_max": 0.050850629806518555, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09190917015075684, "timer/agent.save_frac": 0.0003063016290407752, "timer/agent.save_avg": 0.09190917015075684, "timer/agent.save_min": 0.09190917015075684, "timer/agent.save_max": 0.09190917015075684, "timer/agent.policy_count": 1530.0, "timer/agent.policy_total": 109.17136716842651, "timer/agent.policy_frac": 0.3638305900646006, "timer/agent.policy_avg": 0.07135383475060557, "timer/agent.policy_min": 0.003046274185180664, "timer/agent.policy_max": 0.3604252338409424, "timer/dataset_train_count": 1530.0, "timer/dataset_train_total": 0.16335272789001465, "timer/dataset_train_frac": 0.0005443984161634162, "timer/dataset_train_avg": 0.00010676648881700304, "timer/dataset_train_min": 6.771087646484375e-05, "timer/dataset_train_max": 0.00023984909057617188, "timer/agent.train_count": 1530.0, "timer/agent.train_total": 182.9193012714386, "timer/agent.train_frac": 0.6096070704429116, "timer/agent.train_avg": 0.11955509887022131, "timer/agent.train_min": 0.10698628425598145, "timer/agent.train_max": 0.20312166213989258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25673937797546387, "timer/agent.report_frac": 0.0008556239772789672, "timer/agent.report_avg": 0.12836968898773193, "timer/agent.report_min": 0.09621739387512207, "timer/agent.report_max": 0.1605219841003418, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.506111145019531e-05, "timer/dataset_eval_frac": 1.5017317446064542e-07, "timer/dataset_eval_avg": 4.506111145019531e-05, "timer/dataset_eval_min": 4.506111145019531e-05, "timer/dataset_eval_max": 4.506111145019531e-05, "fps": 20.39444950388594}
{"step": 77896, "episode/length": 550.0, "episode/score": 510.0, "episode/reward_rate": 0.09074410163339383}
{"step": 79344, "episode/length": 361.0, "episode/score": 440.0, "episode/reward_rate": 0.12154696132596685}
{"step": 81656, "episode/length": 577.0, "episode/score": 540.0, "episode/reward_rate": 0.09169550173010381}
{"step": 83872, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.820045221864788, "train/action_min": 0.0, "train/action_std": 4.104537139531055, "train/actor_opt_grad_norm": 0.007911204725650012, "train/actor_opt_grad_steps": 19100.0, "train/actor_opt_loss": 0.0036951958378398366, "train/adv_mag": 0.5228545363822015, "train/adv_max": 0.5058637325670204, "train/adv_mean": 0.00666683020216285, "train/adv_min": -0.3960445604098389, "train/adv_std": 0.039470056802326556, "train/cont_avg": 0.9983660130718954, "train/cont_loss_mean": 0.001445021206434688, "train/cont_loss_std": 0.030983568397953135, "train/cont_neg_acc": 0.7634860063327178, "train/cont_neg_loss": 0.5440023536332058, "train/cont_pos_acc": 0.9997760984632704, "train/cont_pos_loss": 0.0006494228655995007, "train/cont_pred": 0.9983050394681544, "train/cont_rate": 0.9983660130718954, "train/dyn_loss_mean": 2.8467745749779, "train/dyn_loss_std": 4.654642946579877, "train/extr_critic_critic_opt_grad_norm": 1.3178513326676062, "train/extr_critic_critic_opt_grad_steps": 19100.0, "train/extr_critic_critic_opt_loss": 1.6242798426572014, "train/extr_critic_mag": 184.2784009945938, "train/extr_critic_max": 184.2784009945938, "train/extr_critic_mean": 70.24913605833365, "train/extr_critic_min": 0.1598877930173687, "train/extr_critic_std": 43.110882678063085, "train/extr_return_normed_mag": 1.3565627414416643, "train/extr_return_normed_max": 1.3565627414416643, "train/extr_return_normed_mean": 0.47519466904253743, "train/extr_return_normed_min": -0.028003696741816266, "train/extr_return_normed_std": 0.3099734030323091, "train/extr_return_rate": 0.959344838179794, "train/extr_return_raw_mag": 195.57350348179637, "train/extr_return_raw_max": 195.57350348179637, "train/extr_return_raw_mean": 71.18861189698862, "train/extr_return_raw_min": 0.10532287519206018, "train/extr_return_raw_std": 43.800309037850575, "train/extr_reward_mag": 12.104046933791217, "train/extr_reward_max": 12.104046933791217, "train/extr_reward_mean": 0.4815882117140527, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.9357605541453642, "train/image_loss_mean": 2.0426813667895747, "train/image_loss_std": 1.173332467188243, "train/model_loss_mean": 3.8047127287372264, "train/model_loss_std": 3.5776636179755714, "train/model_opt_grad_norm": 13.879218288496428, "train/model_opt_grad_steps": 19100.0, "train/model_opt_loss": 3.8047127287372264, "train/policy_entropy_mag": 2.6329789956410727, "train/policy_entropy_max": 2.6329789956410727, "train/policy_entropy_mean": 0.9720889396137662, "train/policy_entropy_min": 0.08021032644642724, "train/policy_entropy_std": 0.7173483628852695, "train/policy_logprob_mag": 7.495293240142025, "train/policy_logprob_max": -0.009491954497944296, "train/policy_logprob_mean": -0.9724391726107379, "train/policy_logprob_min": -7.495293240142025, "train/policy_logprob_std": 1.3398789338816226, "train/policy_randomness_mag": 0.91094823327719, "train/policy_randomness_max": 0.91094823327719, "train/policy_randomness_mean": 0.3363196974486307, "train/policy_randomness_min": 0.02775086900767158, "train/policy_randomness_std": 0.24818550313220306, "train/post_ent_mag": 47.53710276784461, "train/post_ent_max": 47.53710276784461, "train/post_ent_mean": 37.91698897118662, "train/post_ent_min": 19.651530970155804, "train/post_ent_std": 3.271089209450616, "train/prior_ent_mag": 66.19422119739009, "train/prior_ent_max": 66.19422119739009, "train/prior_ent_mean": 40.860673767289306, "train/prior_ent_min": 25.975134593988557, "train/prior_ent_std": 4.978518881828957, "train/rep_loss_mean": 2.8467745749779, "train/rep_loss_std": 4.654642946579877, "train/reward_avg": 0.607702716503268, "train/reward_loss_mean": 0.05252162094404495, "train/reward_loss_std": 0.23995031114497217, "train/reward_max_data": 14.117647058823529, "train/reward_max_pred": 12.391091876559788, "train/reward_neg_acc": 0.9702900807841931, "train/reward_neg_loss": 0.00891603071248658, "train/reward_pos_acc": 0.9890708849321004, "train/reward_pos_loss": 0.731521789934121, "train/reward_pred": 0.5450984344762915, "train/reward_rate": 0.06031071282679738, "train_stats/mean_log_entropy": 0.8427862127621969, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0033282798249274492, "report/cont_loss_std": 0.10332052409648895, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.013578323647379875, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.0033182601910084486, "report/cont_pred": 0.9980117678642273, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.7033791542053223, "report/dyn_loss_std": 4.58742094039917, "report/image_loss_mean": 1.809370994567871, "report/image_loss_std": 1.112145185470581, "report/model_loss_mean": 3.477044105529785, "report/model_loss_std": 3.518512487411499, "report/post_ent_mag": 48.31425094604492, "report/post_ent_max": 48.31425094604492, "report/post_ent_mean": 39.093292236328125, "report/post_ent_min": 20.379940032958984, "report/post_ent_std": 3.309091091156006, "report/prior_ent_mag": 67.09063720703125, "report/prior_ent_max": 67.09063720703125, "report/prior_ent_mean": 41.789764404296875, "report/prior_ent_min": 30.110191345214844, "report/prior_ent_std": 4.884772777557373, "report/rep_loss_mean": 2.7033791542053223, "report/rep_loss_std": 4.58742094039917, "report/reward_avg": 0.556640625, "report/reward_loss_mean": 0.042317114770412445, "report/reward_loss_std": 0.17635776102542877, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.003158569335938, "report/reward_neg_acc": 0.9679420590400696, "report/reward_neg_loss": 0.005802559666335583, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6617833375930786, "report/reward_pred": 0.5009451508522034, "report/reward_rate": 0.0556640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.004894885700196028, "eval/cont_loss_std": 0.1513819545507431, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.845465183258057, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00016314520325977355, "eval/cont_pred": 0.9998353123664856, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.350587844848633, "eval/dyn_loss_std": 8.430685997009277, "eval/image_loss_mean": 4.956970691680908, "eval/image_loss_std": 2.8734943866729736, "eval/model_loss_mean": 13.298812866210938, "eval/model_loss_std": 7.358936309814453, "eval/post_ent_mag": 50.802734375, "eval/post_ent_max": 50.802734375, "eval/post_ent_mean": 36.250938415527344, "eval/post_ent_min": 24.271018981933594, "eval/post_ent_std": 3.702272415161133, "eval/prior_ent_mag": 67.09063720703125, "eval/prior_ent_max": 67.09063720703125, "eval/prior_ent_mean": 41.06906509399414, "eval/prior_ent_min": 28.589412689208984, "eval/prior_ent_std": 5.069471836090088, "eval/rep_loss_mean": 13.350587844848633, "eval/rep_loss_std": 8.430685997009277, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.3265950083732605, "eval/reward_loss_std": 2.00358510017395, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997467994689941, "eval/reward_neg_acc": 0.9537688493728638, "eval/reward_neg_loss": 0.03320692107081413, "eval/reward_pos_acc": 0.17241379618644714, "eval/reward_pos_loss": 10.392841339111328, "eval/reward_pred": 0.08690774440765381, "eval/reward_rate": 0.0283203125, "replay/size": 20905.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 5.104706526735149e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3446112344286744e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.98623633384705, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.545193195343018, "timer/env.step_frac": 0.02181831165100201, "timer/env.step_avg": 0.004266749149506531, "timer/env.step_min": 0.0022678375244140625, "timer/env.step_max": 0.031215190887451172, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 400.545889377594, "timer/replay._sample_frac": 1.3352142227346613, "timer/replay._sample_avg": 0.016319503315579936, "timer/replay._sample_min": 0.006469011306762695, "timer/replay._sample_max": 0.03648948669433594, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.9175341129303, "timer/agent.policy_frac": 0.3664085907948319, "timer/agent.policy_avg": 0.07165419433698195, "timer/agent.policy_min": 0.0029327869415283203, "timer/agent.policy_max": 0.08742785453796387, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.16401243209838867, "timer/dataset_train_frac": 0.0005467331905049918, "timer/dataset_train_avg": 0.00010691814348004476, "timer/dataset_train_min": 7.176399230957031e-05, "timer/dataset_train_max": 0.0002357959747314453, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.0946249961853, "timer/agent.train_frac": 0.6070099322608149, "timer/agent.train_avg": 0.11870575293102041, "timer/agent.train_min": 0.10623598098754883, "timer/agent.train_max": 0.20305776596069336, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26070666313171387, "timer/agent.report_frac": 0.0008690620820402575, "timer/agent.report_avg": 0.13035333156585693, "timer/agent.report_min": 0.09856271743774414, "timer/agent.report_max": 0.16214394569396973, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.91278076171875e-05, "timer/dataset_eval_frac": 1.9710173486554787e-07, "timer/dataset_eval_avg": 5.91278076171875e-05, "timer/dataset_eval_min": 5.91278076171875e-05, "timer/dataset_eval_max": 5.91278076171875e-05, "fps": 20.452816962330136}
{"step": 83884, "episode/length": 556.0, "episode/score": 460.0, "episode/reward_rate": 0.08258527827648116}
{"step": 85516, "episode/length": 407.0, "episode/score": 440.0, "episode/reward_rate": 0.10784313725490197}
{"step": 88764, "episode/length": 811.0, "episode/score": 460.0, "episode/reward_rate": 0.05665024630541872}
{"step": 90008, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.109717431006494, "train/action_min": 0.0, "train/action_std": 3.72443696275934, "train/actor_opt_grad_norm": 0.006941646183296651, "train/actor_opt_grad_steps": 20635.0, "train/actor_opt_loss": 0.002306569055643242, "train/adv_mag": 0.541065504992163, "train/adv_max": 0.5232212607349668, "train/adv_mean": 0.004426304264940539, "train/adv_min": -0.38868276687798564, "train/adv_std": 0.034427524641059436, "train/cont_avg": 0.998237114448052, "train/cont_loss_mean": 0.0015887210889871624, "train/cont_loss_std": 0.03434572791112354, "train/cont_neg_acc": 0.7804511297018009, "train/cont_neg_loss": 0.5474647172189254, "train/cont_pos_acc": 0.9998092333991806, "train/cont_pos_loss": 0.0006020268597295286, "train/cont_pred": 0.998285263389736, "train/cont_rate": 0.998237114448052, "train/dyn_loss_mean": 2.881280185340287, "train/dyn_loss_std": 4.77587189922085, "train/extr_critic_critic_opt_grad_norm": 1.2417145243712835, "train/extr_critic_critic_opt_grad_steps": 20635.0, "train/extr_critic_critic_opt_loss": 1.5536045873319948, "train/extr_critic_mag": 208.80407576127485, "train/extr_critic_max": 208.80407576127485, "train/extr_critic_mean": 78.63590163689155, "train/extr_critic_min": 0.06824111319207526, "train/extr_critic_std": 50.6486871025779, "train/extr_return_normed_mag": 1.313034736490869, "train/extr_return_normed_max": 1.313034736490869, "train/extr_return_normed_mean": 0.46198041233923526, "train/extr_return_normed_min": -0.020748509856110268, "train/extr_return_normed_std": 0.3116283254189925, "train/extr_return_rate": 0.9475408827329611, "train/extr_return_raw_mag": 219.32988312956576, "train/extr_return_raw_max": 219.32988312956576, "train/extr_return_raw_mean": 79.36059761047363, "train/extr_return_raw_min": 0.05049884585397584, "train/extr_return_raw_std": 51.22554881851394, "train/extr_reward_mag": 12.198150157928467, "train/extr_reward_max": 12.198150157928467, "train/extr_reward_mean": 0.5132221666636405, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.015823399865782, "train/image_loss_mean": 1.9369933086556275, "train/image_loss_std": 1.1344576443170573, "train/model_loss_mean": 3.718928098678589, "train/model_loss_std": 3.616015649461127, "train/model_opt_grad_norm": 13.97095214546501, "train/model_opt_grad_steps": 20635.0, "train/model_opt_loss": 3.718928098678589, "train/policy_entropy_mag": 2.628749799418759, "train/policy_entropy_max": 2.628749799418759, "train/policy_entropy_mean": 0.9425309137864546, "train/policy_entropy_min": 0.08020636971507754, "train/policy_entropy_std": 0.7229051454500719, "train/policy_logprob_mag": 7.495357525813115, "train/policy_logprob_max": -0.009491428200687681, "train/policy_logprob_mean": -0.9433265978639777, "train/policy_logprob_min": -7.495357525813115, "train/policy_logprob_std": 1.320592277235799, "train/policy_randomness_mag": 0.9094850312579762, "train/policy_randomness_max": 0.9094850312579762, "train/policy_randomness_mean": 0.3260933259477863, "train/policy_randomness_min": 0.02774950009226412, "train/policy_randomness_std": 0.25010801938834126, "train/post_ent_mag": 48.20611656486214, "train/post_ent_max": 48.20611656486214, "train/post_ent_mean": 38.29755562621278, "train/post_ent_min": 20.793639690845044, "train/post_ent_std": 3.3783896851849247, "train/prior_ent_mag": 67.44876841755656, "train/prior_ent_max": 67.44876841755656, "train/prior_ent_mean": 41.24676867893764, "train/prior_ent_min": 25.80086882702716, "train/prior_ent_std": 5.1312650674349305, "train/rep_loss_mean": 2.881280185340287, "train/rep_loss_std": 4.77587189922085, "train/reward_avg": 0.6242390422077922, "train/reward_loss_mean": 0.051577955823053016, "train/reward_loss_std": 0.23120044384683883, "train/reward_max_data": 14.415584415584416, "train/reward_max_pred": 12.944019100882791, "train/reward_neg_acc": 0.9718802548074102, "train/reward_neg_loss": 0.007934688642627087, "train/reward_pos_acc": 0.9918015185114625, "train/reward_pos_loss": 0.7154405244759151, "train/reward_pred": 0.5644582618366588, "train/reward_rate": 0.061884892451298704, "train_stats/mean_log_entropy": 0.8816070357958475, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.331150532583706e-06, "report/cont_loss_std": 7.57623856770806e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.331150532583706e-06, "report/cont_pred": 0.9999947547912598, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.659511089324951, "report/dyn_loss_std": 4.303513526916504, "report/image_loss_mean": 1.6638023853302002, "report/image_loss_std": 1.1231915950775146, "report/model_loss_mean": 3.2957332134246826, "report/model_loss_std": 3.3040342330932617, "report/post_ent_mag": 48.668914794921875, "report/post_ent_max": 48.668914794921875, "report/post_ent_mean": 39.18077850341797, "report/post_ent_min": 29.26944351196289, "report/post_ent_std": 3.0074825286865234, "report/prior_ent_mag": 68.42852783203125, "report/prior_ent_max": 68.42852783203125, "report/prior_ent_mean": 41.73075866699219, "report/prior_ent_min": 31.038299560546875, "report/prior_ent_std": 4.98516321182251, "report/rep_loss_mean": 2.659511089324951, "report/rep_loss_std": 4.303513526916504, "report/reward_avg": 0.556640625, "report/reward_loss_mean": 0.03621866554021835, "report/reward_loss_std": 0.17879027128219604, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.007267951965332, "report/reward_neg_acc": 0.9927611351013184, "report/reward_neg_loss": 0.0016847681254148483, "report/reward_pos_acc": 0.9824561476707458, "report/reward_pos_loss": 0.6220831871032715, "report/reward_pred": 0.5240511298179626, "report/reward_rate": 0.0556640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0025735939852893353, "eval/cont_loss_std": 0.062032535672187805, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.9063518047332764, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0007126190466806293, "eval/cont_pred": 0.9992713928222656, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.238763809204102, "eval/dyn_loss_std": 7.992875576019287, "eval/image_loss_mean": 5.92043924331665, "eval/image_loss_std": 3.0342204570770264, "eval/model_loss_mean": 14.89370059967041, "eval/model_loss_std": 7.287436008453369, "eval/post_ent_mag": 49.164424896240234, "eval/post_ent_max": 49.164424896240234, "eval/post_ent_mean": 38.63874435424805, "eval/post_ent_min": 26.352563858032227, "eval/post_ent_std": 3.861586332321167, "eval/prior_ent_mag": 68.42852783203125, "eval/prior_ent_max": 68.42852783203125, "eval/prior_ent_mean": 43.22551345825195, "eval/prior_ent_min": 29.374130249023438, "eval/prior_ent_std": 5.382343292236328, "eval/rep_loss_mean": 14.238763809204102, "eval/rep_loss_std": 7.992875576019287, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4274303913116455, "eval/reward_loss_std": 2.4486281871795654, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.97362232208252, "eval/reward_neg_acc": 0.9496475458145142, "eval/reward_neg_loss": 0.02775799296796322, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 13.229840278625488, "eval/reward_pred": 0.07411450147628784, "eval/reward_rate": 0.0302734375, "replay/size": 22439.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 5.087143750047746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3351110156232095e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1131067276001, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.566282272338867, "timer/env.step_frac": 0.02187935856563173, "timer/env.step_avg": 0.0042804969180827036, "timer/env.step_min": 0.002279520034790039, "timer/env.step_max": 0.03235340118408203, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 399.15385150909424, "timer/replay._sample_frac": 1.3300113942420688, "timer/replay._sample_avg": 0.016262787300729067, "timer/replay._sample_min": 0.0009884834289550781, "timer/replay._sample_max": 0.03863525390625, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.80528998374939, "timer/agent.policy_frac": 0.3658796884316518, "timer/agent.policy_avg": 0.07158102345746375, "timer/agent.policy_min": 0.003119230270385742, "timer/agent.policy_max": 0.08203935623168945, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.16053509712219238, "timer/dataset_train_frac": 0.0005349153153377712, "timer/dataset_train_avg": 0.0001046513019049494, "timer/dataset_train_min": 6.985664367675781e-05, "timer/dataset_train_max": 0.00019049644470214844, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.25172567367554, "timer/agent.train_frac": 0.6072767952753816, "timer/agent.train_avg": 0.11880816536745471, "timer/agent.train_min": 0.10637879371643066, "timer/agent.train_max": 0.20290732383728027, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25563907623291016, "timer/agent.report_frac": 0.0008518091029757753, "timer/agent.report_avg": 0.12781953811645508, "timer/agent.report_min": 0.10031843185424805, "timer/agent.report_max": 0.1553206443786621, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.079673767089844e-05, "timer/dataset_eval_frac": 2.0257941525386644e-07, "timer/dataset_eval_avg": 6.079673767089844e-05, "timer/dataset_eval_min": 6.079673767089844e-05, "timer/dataset_eval_max": 6.079673767089844e-05, "fps": 20.443901419915925}
{"step": 76804, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.17041015625, "train/action_min": 0.0, "train/action_std": 3.7343766689300537, "train/actor_opt_grad_norm": 0.010511494241654873, "train/actor_opt_grad_steps": 18101.0, "train/actor_opt_loss": 0.005969152320176363, "train/adv_mag": 0.5862016677856445, "train/adv_max": 0.5862016677856445, "train/adv_mean": 0.007844377309083939, "train/adv_min": -0.4720994830131531, "train/adv_std": 0.045969706028699875, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 6.981527258176357e-05, "train/cont_loss_std": 0.0010731576476246119, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.006736191920936108, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.32987794233486e-05, "train/cont_pred": 0.9989673495292664, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 4.6119771003723145, "train/dyn_loss_std": 7.166189670562744, "train/extr_critic_critic_opt_grad_norm": 1.889979600906372, "train/extr_critic_critic_opt_grad_steps": 18101.0, "train/extr_critic_critic_opt_loss": 1.7678937911987305, "train/extr_critic_mag": 176.89157104492188, "train/extr_critic_max": 176.89157104492188, "train/extr_critic_mean": 66.36729431152344, "train/extr_critic_min": 0.17749691009521484, "train/extr_critic_std": 38.043521881103516, "train/extr_return_normed_mag": 1.3955583572387695, "train/extr_return_normed_max": 1.3955583572387695, "train/extr_return_normed_mean": 0.48061734437942505, "train/extr_return_normed_min": -0.03036855161190033, "train/extr_return_normed_std": 0.2921935021877289, "train/extr_return_rate": 0.9854817986488342, "train/extr_return_raw_mag": 188.08807373046875, "train/extr_return_raw_max": 188.08807373046875, "train/extr_return_raw_mean": 67.40202331542969, "train/extr_return_raw_min": 2.0265579223632812e-06, "train/extr_return_raw_std": 38.542022705078125, "train/extr_reward_mag": 10.016803741455078, "train/extr_reward_max": 10.016803741455078, "train/extr_reward_mean": 0.3924122154712677, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.7103585004806519, "train/image_loss_mean": 2.697254180908203, "train/image_loss_std": 2.7486181259155273, "train/model_loss_mean": 5.536549091339111, "train/model_loss_std": 6.637051582336426, "train/model_opt_grad_norm": 14.655351638793945, "train/model_opt_grad_steps": 18101.0, "train/model_opt_loss": 5.536549091339111, "train/policy_entropy_mag": 2.585178852081299, "train/policy_entropy_max": 2.585178852081299, "train/policy_entropy_mean": 0.9239142537117004, "train/policy_entropy_min": 0.08020740002393723, "train/policy_entropy_std": 0.7071813941001892, "train/policy_logprob_mag": 7.494992733001709, "train/policy_logprob_max": -0.00949143711477518, "train/policy_logprob_mean": -0.9076600670814514, "train/policy_logprob_min": -7.494992733001709, "train/policy_logprob_std": 1.304235577583313, "train/policy_randomness_mag": 0.8944104909896851, "train/policy_randomness_max": 0.8944104909896851, "train/policy_randomness_mean": 0.31965240836143494, "train/policy_randomness_min": 0.027749856933951378, "train/policy_randomness_std": 0.24466797709465027, "train/post_ent_mag": 47.519981384277344, "train/post_ent_max": 47.519981384277344, "train/post_ent_mean": 38.80674743652344, "train/post_ent_min": 19.104907989501953, "train/post_ent_std": 3.1662333011627197, "train/prior_ent_mag": 65.01219177246094, "train/prior_ent_max": 65.01219177246094, "train/prior_ent_mean": 41.96879577636719, "train/prior_ent_min": 19.592721939086914, "train/prior_ent_std": 4.931992530822754, "train/rep_loss_mean": 4.6119771003723145, "train/rep_loss_std": 7.166189670562744, "train/reward_avg": 0.5859375, "train/reward_loss_mean": 0.0720386877655983, "train/reward_loss_std": 0.42426878213882446, "train/reward_max_data": 10.0, "train/reward_max_pred": 10.004728317260742, "train/reward_neg_acc": 0.970954418182373, "train/reward_neg_loss": 0.007900996133685112, "train/reward_pos_acc": 0.9500000476837158, "train/reward_pos_loss": 1.1025176048278809, "train/reward_pred": 0.44436222314834595, "train/reward_rate": 0.05859375, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0005871625035069883, "report/cont_loss_std": 0.017903447151184082, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.5731542706489563, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.7468362532090396e-05, "report/cont_pred": 0.9994220733642578, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.341639041900635, "report/dyn_loss_std": 6.698851585388184, "report/image_loss_mean": 2.6707587242126465, "report/image_loss_std": 2.559422254562378, "report/model_loss_mean": 5.361526966094971, "report/model_loss_std": 6.074903964996338, "report/post_ent_mag": 50.94208908081055, "report/post_ent_max": 50.94208908081055, "report/post_ent_mean": 39.04296112060547, "report/post_ent_min": 18.84807586669922, "report/post_ent_std": 3.511060953140259, "report/prior_ent_mag": 65.01995849609375, "report/prior_ent_max": 65.01995849609375, "report/prior_ent_mean": 42.28764343261719, "report/prior_ent_min": 21.914810180664062, "report/prior_ent_std": 5.08101749420166, "report/rep_loss_mean": 4.341639041900635, "report/rep_loss_std": 6.698851585388184, "report/reward_avg": 0.5859375, "report/reward_loss_mean": 0.08519719541072845, "report/reward_loss_std": 0.4610746502876282, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.004801750183105, "report/reward_neg_acc": 0.9564315676689148, "report/reward_neg_loss": 0.015604210086166859, "report/reward_pos_acc": 0.9166666865348816, "report/reward_pos_loss": 1.2033244371414185, "report/reward_pred": 0.4613773822784424, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.005132172256708145, "eval/cont_loss_std": 0.12018454819917679, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.466627836227417, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00031515536829829216, "eval/cont_pred": 0.9994102120399475, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.932586669921875, "eval/dyn_loss_std": 7.508526802062988, "eval/image_loss_mean": 5.735648155212402, "eval/image_loss_std": 3.218719005584717, "eval/model_loss_mean": 13.882469177246094, "eval/model_loss_std": 7.349715709686279, "eval/post_ent_mag": 49.00749206542969, "eval/post_ent_max": 49.00749206542969, "eval/post_ent_mean": 35.8393669128418, "eval/post_ent_min": 25.011489868164062, "eval/post_ent_std": 3.3839004039764404, "eval/prior_ent_mag": 65.01995849609375, "eval/prior_ent_max": 65.01995849609375, "eval/prior_ent_mean": 40.85821533203125, "eval/prior_ent_min": 33.00341796875, "eval/prior_ent_std": 4.780839443206787, "eval/rep_loss_mean": 12.932586669921875, "eval/rep_loss_std": 7.508526802062988, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.3821372389793396, "eval/reward_loss_std": 2.4099321365356445, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.018295288085938, "eval/reward_neg_acc": 0.9668341875076294, "eval/reward_neg_loss": 0.02701829932630062, "eval/reward_pos_acc": 0.17241379618644714, "eval/reward_pos_loss": 12.566389083862305, "eval/reward_pred": 0.06099938228726387, "eval/reward_rate": 0.0283203125, "replay/size": 50694.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.2410538537161692e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.375164304460798e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 80.15710639953613, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 14.903473377227783, "timer/replay._sample_frac": 0.18592828567117575, "timer/replay._sample_avg": 0.1330667265823909, "timer/replay._sample_min": 0.00991058349609375, "timer/replay._sample_max": 1.2201478481292725, "timer/env.step_count": 1.0, "timer/env.step_total": 0.0252687931060791, "timer/env.step_frac": 0.0003152408344199577, "timer/env.step_avg": 0.0252687931060791, "timer/env.step_min": 0.0252687931060791, "timer/env.step_max": 0.0252687931060791, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 9.446439504623413, "timer/agent.policy_frac": 0.11784905829232976, "timer/agent.policy_avg": 9.446439504623413, "timer/agent.policy_min": 9.446439504623413, "timer/agent.policy_max": 9.446439504623413, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 3.361701965332031e-05, "timer/dataset_train_frac": 4.193891367006089e-07, "timer/dataset_train_avg": 3.361701965332031e-05, "timer/dataset_train_min": 3.361701965332031e-05, "timer/dataset_train_max": 3.361701965332031e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 56.87019324302673, "timer/agent.train_frac": 0.7094841093634567, "timer/agent.train_avg": 56.87019324302673, "timer/agent.train_min": 56.87019324302673, "timer/agent.train_max": 56.87019324302673, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.308357000350952, "timer/agent.report_frac": 0.14107741045423258, "timer/agent.report_avg": 5.654178500175476, "timer/agent.report_min": 0.0992891788482666, "timer/agent.report_max": 11.209067821502686, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.654594421386719e-05, "timer/dataset_eval_frac": 1.0797039476760357e-06, "timer/dataset_eval_avg": 8.654594421386719e-05, "timer/dataset_eval_min": 8.654594421386719e-05, "timer/dataset_eval_max": 8.654594421386719e-05}
{"step": 78620, "episode/length": 454.0, "episode/score": 390.0, "episode/reward_rate": 0.08571428571428572}
{"step": 81316, "episode/length": 673.0, "episode/score": 1110.0, "episode/reward_rate": 0.09050445103857567}
{"step": 82768, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.391543394767197, "train/action_min": 0.0, "train/action_std": 3.4725976342322844, "train/actor_opt_grad_norm": 0.008868082870272982, "train/actor_opt_grad_steps": 18850.0, "train/actor_opt_loss": 0.0025884068481839572, "train/adv_mag": 0.5984017526943411, "train/adv_max": 0.5670230572655697, "train/adv_mean": 0.005116169137621201, "train/adv_min": -0.44671990827426017, "train/adv_std": 0.043310779665640536, "train/cont_avg": 0.9983680264261745, "train/cont_loss_mean": 0.0021234010183776115, "train/cont_loss_std": 0.047645380485248356, "train/cont_neg_acc": 0.6498697937931865, "train/cont_neg_loss": 0.8920490323698687, "train/cont_pos_acc": 0.9997898796260757, "train/cont_pos_loss": 0.0006932705572437301, "train/cont_pred": 0.99838510735723, "train/cont_rate": 0.9983680264261745, "train/dyn_loss_mean": 3.7930568960689057, "train/dyn_loss_std": 4.813273596283573, "train/extr_critic_critic_opt_grad_norm": 1.5405849314376012, "train/extr_critic_critic_opt_grad_steps": 18850.0, "train/extr_critic_critic_opt_loss": 1.7725497172182838, "train/extr_critic_mag": 178.14037425406028, "train/extr_critic_max": 178.14037425406028, "train/extr_critic_mean": 65.69518615415433, "train/extr_critic_min": 0.6445267496493039, "train/extr_critic_std": 40.434882925660816, "train/extr_return_normed_mag": 1.3704778664064088, "train/extr_return_normed_max": 1.3704778664064088, "train/extr_return_normed_mean": 0.45354396524845353, "train/extr_return_normed_min": -0.04047400156432925, "train/extr_return_normed_std": 0.3060655397856796, "train/extr_return_rate": 0.9843213038156496, "train/extr_return_raw_mag": 189.0391964496382, "train/extr_return_raw_max": 189.0391964496382, "train/extr_return_raw_mean": 66.38055819312999, "train/extr_return_raw_min": 0.28838297174680955, "train/extr_return_raw_std": 40.955268898266276, "train/extr_reward_mag": 12.03756498810429, "train/extr_reward_max": 12.03756498810429, "train/extr_reward_mean": 0.4725948629163256, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.8377694579578887, "train/image_loss_mean": 2.317799900202143, "train/image_loss_std": 1.3574418313551269, "train/model_loss_mean": 4.671244821292442, "train/model_loss_std": 3.845726085189205, "train/model_opt_grad_norm": 14.979366648117168, "train/model_opt_grad_steps": 18850.0, "train/model_opt_loss": 4.671244821292442, "train/policy_entropy_mag": 2.5940896536679876, "train/policy_entropy_max": 2.5940896536679876, "train/policy_entropy_mean": 0.913554366402978, "train/policy_entropy_min": 0.08021914298902422, "train/policy_entropy_std": 0.689120576685707, "train/policy_logprob_mag": 7.495050180678399, "train/policy_logprob_max": -0.00949315312974805, "train/policy_logprob_mean": -0.912594946038803, "train/policy_logprob_min": -7.495050180678399, "train/policy_logprob_std": 1.3262634701376794, "train/policy_randomness_mag": 0.8974934456332418, "train/policy_randomness_max": 0.8974934456332418, "train/policy_randomness_mean": 0.31606812255094513, "train/policy_randomness_min": 0.02775391932551893, "train/policy_randomness_std": 0.23841936196256805, "train/post_ent_mag": 50.01543628769433, "train/post_ent_max": 50.01543628769433, "train/post_ent_mean": 39.66701062093645, "train/post_ent_min": 22.337460370671828, "train/post_ent_std": 3.5436087550732913, "train/prior_ent_mag": 65.90999562308292, "train/prior_ent_max": 65.90999562308292, "train/prior_ent_mean": 43.3485252841207, "train/prior_ent_min": 30.194335822291023, "train/prior_ent_std": 4.988851947272384, "train/rep_loss_mean": 3.7930568960689057, "train/rep_loss_std": 4.813273596283573, "train/reward_avg": 0.666094274328859, "train/reward_loss_mean": 0.07548743076372466, "train/reward_loss_std": 0.3230282254267059, "train/reward_max_data": 14.630872483221477, "train/reward_max_pred": 12.930768294622434, "train/reward_neg_acc": 0.9397540080467327, "train/reward_neg_loss": 0.01645552528234536, "train/reward_pos_acc": 0.9775325911957146, "train/reward_pos_loss": 0.9205155172604043, "train/reward_pred": 0.5467325406986595, "train/reward_rate": 0.06603266568791946, "train_stats/mean_log_entropy": 0.8600555956363678, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.2891337973996997e-05, "report/cont_loss_std": 0.00018079140863846987, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0011337121250107884, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.179571609100094e-05, "report/cont_pred": 0.99901282787323, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.6644535064697266, "report/dyn_loss_std": 5.221564292907715, "report/image_loss_mean": 2.1278982162475586, "report/image_loss_std": 1.4450076818466187, "report/model_loss_mean": 4.438948154449463, "report/model_loss_std": 4.27522611618042, "report/post_ent_mag": 54.348114013671875, "report/post_ent_max": 54.348114013671875, "report/post_ent_mean": 41.00464630126953, "report/post_ent_min": 17.823366165161133, "report/post_ent_std": 3.9197981357574463, "report/prior_ent_mag": 66.46370697021484, "report/prior_ent_max": 66.46370697021484, "report/prior_ent_mean": 44.511959075927734, "report/prior_ent_min": 28.252700805664062, "report/prior_ent_std": 5.343532085418701, "report/rep_loss_mean": 3.6644535064697266, "report/rep_loss_std": 5.221564292907715, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.11236485838890076, "report/reward_loss_std": 0.44260233640670776, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.69489860534668, "report/reward_neg_acc": 0.922587513923645, "report/reward_neg_loss": 0.02856592647731304, "report/reward_pos_acc": 0.9382716417312622, "report/reward_pos_loss": 1.0879498720169067, "report/reward_pred": 0.664501428604126, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01161414198577404, "eval/cont_loss_std": 0.19112974405288696, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.793032646179199, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.0034415123518556356, "eval/cont_pred": 0.9968810081481934, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.762677192687988, "eval/dyn_loss_std": 6.882351875305176, "eval/image_loss_mean": 4.588709354400635, "eval/image_loss_std": 3.102520704269409, "eval/model_loss_mean": 11.43647575378418, "eval/model_loss_std": 6.851064205169678, "eval/post_ent_mag": 50.599239349365234, "eval/post_ent_max": 50.599239349365234, "eval/post_ent_mean": 39.02457046508789, "eval/post_ent_min": 28.519027709960938, "eval/post_ent_std": 3.5782504081726074, "eval/prior_ent_mag": 66.46370697021484, "eval/prior_ent_max": 66.46370697021484, "eval/prior_ent_mean": 43.19109344482422, "eval/prior_ent_min": 29.78523063659668, "eval/prior_ent_std": 5.593241214752197, "eval/rep_loss_mean": 10.762677192687988, "eval/rep_loss_std": 6.882351875305176, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.37854650616645813, "eval/reward_loss_std": 2.1382031440734863, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002962112426758, "eval/reward_neg_acc": 0.9533940553665161, "eval/reward_neg_loss": 0.02893107570707798, "eval/reward_pos_acc": 0.1621621549129486, "eval/reward_pos_loss": 9.704773902893066, "eval/reward_pred": 0.06664133071899414, "eval/reward_rate": 0.0361328125, "replay/size": 52123.0, "replay/inserts": 1429.0, "replay/samples": 23856.0, "replay/insert_wait_avg": 5.052838816018769e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.297540348060654e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.0137791633606, "timer/replay._sample_count": 23856.0, "timer/replay._sample_total": 352.5502188205719, "timer/replay._sample_frac": 1.2198387905280401, "timer/replay._sample_avg": 0.014778262022995134, "timer/replay._sample_min": 0.0004668235778808594, "timer/replay._sample_max": 0.04171323776245117, "timer/env.step_count": 1491.0, "timer/env.step_total": 6.509323596954346, "timer/env.step_frac": 0.022522537215345192, "timer/env.step_avg": 0.004365743525790976, "timer/env.step_min": 0.002355813980102539, "timer/env.step_max": 0.030273914337158203, "timer/agent.policy_count": 1491.0, "timer/agent.policy_total": 106.68843197822571, "timer/agent.policy_frac": 0.36914652404140813, "timer/agent.policy_avg": 0.07155495102496694, "timer/agent.policy_min": 0.0031130313873291016, "timer/agent.policy_max": 0.08695101737976074, "timer/dataset_train_count": 1491.0, "timer/dataset_train_total": 0.1475839614868164, "timer/dataset_train_frac": 0.0005106468000039432, "timer/dataset_train_avg": 9.898320689927324e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.0002913475036621094, "timer/agent.train_count": 1491.0, "timer/agent.train_total": 174.3744969367981, "timer/agent.train_frac": 0.6033431950600375, "timer/agent.train_avg": 0.11695137286170228, "timer/agent.train_min": 0.10416865348815918, "timer/agent.train_max": 0.20396113395690918, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26248645782470703, "timer/agent.report_frac": 0.000908214336993049, "timer/agent.report_avg": 0.13124322891235352, "timer/agent.report_min": 0.09646821022033691, "timer/agent.report_max": 0.16601824760437012, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.176399230957031e-05, "timer/dataset_eval_frac": 2.483064735436258e-07, "timer/dataset_eval_avg": 7.176399230957031e-05, "timer/dataset_eval_min": 7.176399230957031e-05, "timer/dataset_eval_max": 7.176399230957031e-05, "fps": 20.634499937100433}
{"step": 83336, "episode/length": 504.0, "episode/score": 490.0, "episode/reward_rate": 0.09504950495049505}
{"step": 86008, "episode/length": 667.0, "episode/score": 600.0, "episode/reward_rate": 0.08982035928143713}
{"step": 87668, "episode/length": 414.0, "episode/score": 500.0, "episode/reward_rate": 0.1180722891566265}
{"step": 88960, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.585470876386088, "train/action_min": 0.0, "train/action_std": 3.2551478847380606, "train/actor_opt_grad_norm": 0.007743829653988923, "train/actor_opt_grad_steps": 20370.0, "train/actor_opt_loss": 0.002615522239296209, "train/adv_mag": 0.5287870607068462, "train/adv_max": 0.49384577428140947, "train/adv_mean": 0.005075468086814057, "train/adv_min": -0.43398347996896314, "train/adv_std": 0.038494461149938645, "train/cont_avg": 0.998374495967742, "train/cont_loss_mean": 0.0016688985129803767, "train/cont_loss_std": 0.036745060667131076, "train/cont_neg_acc": 0.7031496087397178, "train/cont_neg_loss": 0.7037255089550932, "train/cont_pos_acc": 0.9998231399443842, "train/cont_pos_loss": 0.0005975485666509016, "train/cont_pred": 0.998426765395749, "train/cont_rate": 0.998374495967742, "train/dyn_loss_mean": 3.204112120597593, "train/dyn_loss_std": 4.788837365181215, "train/extr_critic_critic_opt_grad_norm": 1.4104235518363215, "train/extr_critic_critic_opt_grad_steps": 20370.0, "train/extr_critic_critic_opt_loss": 1.6812544315092026, "train/extr_critic_mag": 200.28348113029233, "train/extr_critic_max": 200.28348113029233, "train/extr_critic_mean": 71.07914820025044, "train/extr_critic_min": 0.3628802876318655, "train/extr_critic_std": 46.34804656736313, "train/extr_return_normed_mag": 1.3386363091007356, "train/extr_return_normed_max": 1.3386363091007356, "train/extr_return_normed_mean": 0.4359902712606615, "train/extr_return_normed_min": -0.03580736441297397, "train/extr_return_normed_std": 0.3093277822579107, "train/extr_return_rate": 0.9740453297092069, "train/extr_return_raw_mag": 208.66017908896168, "train/extr_return_raw_max": 208.66017908896168, "train/extr_return_raw_mean": 71.84963447816911, "train/extr_return_raw_min": 0.23767458421568716, "train/extr_return_raw_std": 46.92742855933405, "train/extr_reward_mag": 13.3923340335969, "train/extr_reward_max": 13.3923340335969, "train/extr_reward_mean": 0.4961071281663833, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.937116252991461, "train/image_loss_mean": 2.0681109374569306, "train/image_loss_std": 1.2182961756183255, "train/model_loss_mean": 4.05399718284607, "train/model_loss_std": 3.699199301196683, "train/model_opt_grad_norm": 14.314740199427451, "train/model_opt_grad_steps": 20370.0, "train/model_opt_loss": 4.05399718284607, "train/policy_entropy_mag": 2.5513153645300095, "train/policy_entropy_max": 2.5513153645300095, "train/policy_entropy_mean": 0.8801473079189177, "train/policy_entropy_min": 0.0802124842520683, "train/policy_entropy_std": 0.6667535485759858, "train/policy_logprob_mag": 7.4953507238818755, "train/policy_logprob_max": -0.009492212966565163, "train/policy_logprob_mean": -0.8802769234103541, "train/policy_logprob_min": -7.4953507238818755, "train/policy_logprob_std": 1.3067371360717281, "train/policy_randomness_mag": 0.8826945562516489, "train/policy_randomness_max": 0.8826945562516489, "train/policy_randomness_mean": 0.3045100781225389, "train/policy_randomness_min": 0.027751615559381822, "train/policy_randomness_std": 0.23068090177351427, "train/post_ent_mag": 49.7114507859753, "train/post_ent_max": 49.7114507859753, "train/post_ent_mean": 39.54325162826046, "train/post_ent_min": 20.94889830927695, "train/post_ent_std": 3.49288021825975, "train/prior_ent_mag": 67.10294972081338, "train/prior_ent_max": 67.10294972081338, "train/prior_ent_mean": 42.82730801490045, "train/prior_ent_min": 27.713764412172377, "train/prior_ent_std": 5.022461045172907, "train/rep_loss_mean": 3.204112120597593, "train/rep_loss_std": 4.788837365181215, "train/reward_avg": 0.6470514112903226, "train/reward_loss_mean": 0.06175011279842546, "train/reward_loss_std": 0.272150063610846, "train/reward_max_data": 17.870967741935484, "train/reward_max_pred": 12.99453888554727, "train/reward_neg_acc": 0.9585145765735257, "train/reward_neg_loss": 0.012088189299608912, "train/reward_pos_acc": 0.9857876093156877, "train/reward_pos_loss": 0.7977964981909721, "train/reward_pred": 0.5593089466133425, "train/reward_rate": 0.06383568548387097, "train_stats/mean_log_entropy": 0.8221169312795004, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.7938713426701725e-05, "report/cont_loss_std": 0.00012486294144764543, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7938713426701725e-05, "report/cont_pred": 0.9999821186065674, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.7740883827209473, "report/dyn_loss_std": 4.703568458557129, "report/image_loss_mean": 1.8240089416503906, "report/image_loss_std": 0.9600242972373962, "report/model_loss_mean": 3.535910129547119, "report/model_loss_std": 3.3562188148498535, "report/post_ent_mag": 49.07585144042969, "report/post_ent_max": 49.07585144042969, "report/post_ent_mean": 39.599586486816406, "report/post_ent_min": 18.272075653076172, "report/post_ent_std": 3.351367712020874, "report/prior_ent_mag": 67.29685974121094, "report/prior_ent_max": 67.29685974121094, "report/prior_ent_mean": 42.10297393798828, "report/prior_ent_min": 22.340654373168945, "report/prior_ent_std": 4.697595119476318, "report/rep_loss_mean": 2.7740883827209473, "report/rep_loss_std": 4.703568458557129, "report/reward_avg": 0.546875, "report/reward_loss_mean": 0.04743022471666336, "report/reward_loss_std": 0.21535013616085052, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.802471160888672, "report/reward_neg_acc": 0.9752322435379028, "report/reward_neg_loss": 0.008056700229644775, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.7411200404167175, "report/reward_pred": 0.4711042046546936, "report/reward_rate": 0.0537109375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.007407200988382101, "eval/cont_loss_std": 0.08130386471748352, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.5539263486862183, "eval/cont_pos_acc": 0.9960861206054688, "eval/cont_pos_loss": 0.006337692029774189, "eval/cont_pred": 0.9946274161338806, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.63461685180664, "eval/dyn_loss_std": 7.977914810180664, "eval/image_loss_mean": 4.705684661865234, "eval/image_loss_std": 3.0802934169769287, "eval/model_loss_mean": 12.061090469360352, "eval/model_loss_std": 7.477753639221191, "eval/post_ent_mag": 49.9814567565918, "eval/post_ent_max": 49.9814567565918, "eval/post_ent_mean": 38.13484191894531, "eval/post_ent_min": 25.84571075439453, "eval/post_ent_std": 3.4412238597869873, "eval/prior_ent_mag": 67.29685974121094, "eval/prior_ent_max": 67.29685974121094, "eval/prior_ent_mean": 42.27287673950195, "eval/prior_ent_min": 30.8076171875, "eval/prior_ent_std": 4.703842639923096, "eval/rep_loss_mean": 11.63461685180664, "eval/rep_loss_std": 7.977914810180664, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.367228627204895, "eval/reward_loss_std": 2.3670783042907715, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.936690330505371, "eval/reward_neg_acc": 0.967903733253479, "eval/reward_neg_loss": 0.02235865220427513, "eval/reward_pos_acc": 0.07407407462596893, "eval/reward_pos_loss": 13.101872444152832, "eval/reward_pred": 0.07946210354566574, "eval/reward_rate": 0.0263671875, "replay/size": 53671.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.868636759676675e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.300636496038708e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.817941665649414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10875606536865, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 365.67475390434265, "timer/replay._sample_frac": 1.2184741248425708, "timer/replay._sample_avg": 0.01476400007688722, "timer/replay._sample_min": 0.0004119873046875, "timer/replay._sample_max": 0.04864811897277832, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.7636072635650635, "timer/env.step_frac": 0.02253718735914469, "timer/env.step_avg": 0.004369255338220325, "timer/env.step_min": 0.0024886131286621094, "timer/env.step_max": 0.03289461135864258, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.89831447601318, "timer/agent.policy_frac": 0.36952708721320243, "timer/agent.policy_avg": 0.07163973803360024, "timer/agent.policy_min": 0.0029783248901367188, "timer/agent.policy_max": 0.08871197700500488, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1487889289855957, "timer/dataset_train_frac": 0.0004957833651250982, "timer/dataset_train_avg": 9.611687918966131e-05, "timer/dataset_train_min": 5.698204040527344e-05, "timer/dataset_train_max": 0.0006244182586669922, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 181.11208868026733, "timer/agent.train_frac": 0.6034881855990171, "timer/agent.train_avg": 0.11699747330766623, "timer/agent.train_min": 0.10372066497802734, "timer/agent.train_max": 0.2084200382232666, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20584893226623535, "timer/agent.report_frac": 0.0006859144496983555, "timer/agent.report_avg": 0.10292446613311768, "timer/agent.report_min": 0.10229730606079102, "timer/agent.report_max": 0.10355162620544434, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.0067901611328125e-05, "timer/dataset_eval_frac": 1.668325252077034e-07, "timer/dataset_eval_avg": 5.0067901611328125e-05, "timer/dataset_eval_min": 5.0067901611328125e-05, "timer/dataset_eval_max": 5.0067901611328125e-05, "fps": 20.631226314126973}
{"step": 89660, "episode/length": 497.0, "episode/score": 510.0, "episode/reward_rate": 0.10040160642570281}
{"step": 92056, "episode/length": 598.0, "episode/score": 520.0, "episode/reward_rate": 0.08681135225375626}
{"step": 93492, "episode/length": 358.0, "episode/score": 440.0, "episode/reward_rate": 0.12256267409470752}
{"step": 94956, "episode/length": 365.0, "episode/score": 440.0, "episode/reward_rate": 0.12021857923497267}
{"step": 95148, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.367207316609171, "train/action_min": 0.0, "train/action_std": 3.606717317135303, "train/actor_opt_grad_norm": 0.007152303835594809, "train/actor_opt_grad_steps": 21915.0, "train/actor_opt_loss": 0.002137181371304527, "train/adv_mag": 0.5269407688023208, "train/adv_max": 0.5025729144161398, "train/adv_mean": 0.004522160695148171, "train/adv_min": -0.40532895419504733, "train/adv_std": 0.03526854892442753, "train/cont_avg": 0.9982878449675324, "train/cont_loss_mean": 0.0016620156586786715, "train/cont_loss_std": 0.0356563372152931, "train/cont_neg_acc": 0.7232804255826133, "train/cont_neg_loss": 0.6608648363208409, "train/cont_pos_acc": 0.9998283320433133, "train/cont_pos_loss": 0.0005809888956373588, "train/cont_pred": 0.9983827649772942, "train/cont_rate": 0.9982878449675324, "train/dyn_loss_mean": 3.0648247545415703, "train/dyn_loss_std": 4.8877505389126865, "train/extr_critic_critic_opt_grad_norm": 1.3970423859435241, "train/extr_critic_critic_opt_grad_steps": 21915.0, "train/extr_critic_critic_opt_loss": 1.6350407190137095, "train/extr_critic_mag": 216.66488379936715, "train/extr_critic_max": 216.66488379936715, "train/extr_critic_mean": 77.19710258384804, "train/extr_critic_min": 0.21038206211932295, "train/extr_critic_std": 51.328283842507894, "train/extr_return_normed_mag": 1.3087929115666972, "train/extr_return_normed_max": 1.3087929115666972, "train/extr_return_normed_mean": 0.42972645289325095, "train/extr_return_normed_min": -0.029907188094039628, "train/extr_return_normed_std": 0.3069005595012145, "train/extr_return_rate": 0.9624746794050391, "train/extr_return_raw_mag": 226.78997128969664, "train/extr_return_raw_max": 226.78997128969664, "train/extr_return_raw_mean": 77.9599766917043, "train/extr_return_raw_min": 0.1796652747850333, "train/extr_return_raw_std": 51.95342295510428, "train/extr_reward_mag": 13.916958678852428, "train/extr_reward_max": 13.916958678852428, "train/extr_reward_mean": 0.5240056363793163, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.021746852955261, "train/image_loss_mean": 1.9444722672561547, "train/image_loss_std": 1.1507905644255798, "train/model_loss_mean": 3.843593131412159, "train/model_loss_std": 3.706767740187707, "train/model_opt_grad_norm": 13.639876266578575, "train/model_opt_grad_steps": 21915.0, "train/model_opt_loss": 3.843593131412159, "train/policy_entropy_mag": 2.5765976781968947, "train/policy_entropy_max": 2.5765976781968947, "train/policy_entropy_mean": 0.9328679105678161, "train/policy_entropy_min": 0.08022058131052302, "train/policy_entropy_std": 0.708800285667568, "train/policy_logprob_mag": 7.495152736639048, "train/policy_logprob_max": -0.009493332773495417, "train/policy_logprob_mean": -0.9343983163307239, "train/policy_logprob_min": -7.495152736639048, "train/policy_logprob_std": 1.3264786662993493, "train/policy_randomness_mag": 0.8914416366583341, "train/policy_randomness_max": 0.8914416366583341, "train/policy_randomness_mean": 0.32275015270555174, "train/policy_randomness_min": 0.02775441695536886, "train/policy_randomness_std": 0.24522807274932984, "train/post_ent_mag": 49.708889230505214, "train/post_ent_max": 49.708889230505214, "train/post_ent_mean": 39.70944151940284, "train/post_ent_min": 21.497038940330604, "train/post_ent_std": 3.4872952235209476, "train/prior_ent_mag": 68.4230034568093, "train/prior_ent_max": 68.4230034568093, "train/prior_ent_mean": 42.88663913677265, "train/prior_ent_min": 26.98005064431723, "train/prior_ent_std": 5.088342415822017, "train/rep_loss_mean": 3.0648247545415703, "train/rep_loss_std": 4.8877505389126865, "train/reward_avg": 0.661525974025974, "train/reward_loss_mean": 0.058563991715865474, "train/reward_loss_std": 0.25540113555533545, "train/reward_max_data": 26.623376623376622, "train/reward_max_pred": 13.793268953050886, "train/reward_neg_acc": 0.9641508444563135, "train/reward_neg_loss": 0.010378590609588019, "train/reward_pos_acc": 0.9893466168409818, "train/reward_pos_loss": 0.7625332447615537, "train/reward_pred": 0.5744315916067594, "train/reward_rate": 0.06441507711038962, "train_stats/mean_log_entropy": 0.7442359924316406, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.1336721399857197e-05, "report/cont_loss_std": 0.0001599850074853748, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1336721399857197e-05, "report/cont_pred": 0.9999886751174927, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.031107187271118, "report/dyn_loss_std": 4.785619735717773, "report/image_loss_mean": 2.0119941234588623, "report/image_loss_std": 1.0933384895324707, "report/model_loss_mean": 3.871366024017334, "report/model_loss_std": 3.5971524715423584, "report/post_ent_mag": 48.26220703125, "report/post_ent_max": 48.26220703125, "report/post_ent_mean": 39.931190490722656, "report/post_ent_min": 20.516921997070312, "report/post_ent_std": 3.0004525184631348, "report/prior_ent_mag": 69.6846923828125, "report/prior_ent_max": 69.6846923828125, "report/prior_ent_mean": 43.14009094238281, "report/prior_ent_min": 28.798507690429688, "report/prior_ent_std": 4.531470775604248, "report/rep_loss_mean": 3.031107187271118, "report/rep_loss_std": 4.785619735717773, "report/reward_avg": 0.498046875, "report/reward_loss_mean": 0.040696147829294205, "report/reward_loss_std": 0.1983235776424408, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.997026443481445, "report/reward_neg_acc": 0.9835560321807861, "report/reward_neg_loss": 0.004868157673627138, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7242380380630493, "report/reward_pred": 0.4335799515247345, "report/reward_rate": 0.0498046875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.06735250382917e-06, "eval/cont_loss_std": 4.570674354908988e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.06735250382917e-06, "eval/cont_pred": 0.9999949932098389, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.707451820373535, "eval/dyn_loss_std": 8.757272720336914, "eval/image_loss_mean": 4.86072301864624, "eval/image_loss_std": 2.8387248516082764, "eval/model_loss_mean": 13.448098182678223, "eval/model_loss_std": 7.697458744049072, "eval/post_ent_mag": 49.684181213378906, "eval/post_ent_max": 49.684181213378906, "eval/post_ent_mean": 38.48626708984375, "eval/post_ent_min": 28.829872131347656, "eval/post_ent_std": 3.7400991916656494, "eval/prior_ent_mag": 69.6846923828125, "eval/prior_ent_max": 69.6846923828125, "eval/prior_ent_mean": 43.37631607055664, "eval/prior_ent_min": 34.51734924316406, "eval/prior_ent_std": 5.205270767211914, "eval/rep_loss_mean": 13.707451820373535, "eval/rep_loss_std": 8.757272720336914, "eval/reward_avg": 0.224609375, "eval/reward_loss_mean": 0.36289912462234497, "eval/reward_loss_std": 2.303679943084717, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.922676086425781, "eval/reward_neg_acc": 0.9580419063568115, "eval/reward_neg_loss": 0.03129655122756958, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 14.794821739196777, "eval/reward_pred": 0.07973308861255646, "eval/reward_rate": 0.0224609375, "replay/size": 55218.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.832175907660239e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2801224444092822e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.428889274597168e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06087613105774, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 363.19546699523926, "timer/replay._sample_frac": 1.2104059405485645, "timer/replay._sample_avg": 0.0146733785954767, "timer/replay._sample_min": 0.0005614757537841797, "timer/replay._sample_max": 0.23690247535705566, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.818885564804077, "timer/env.step_frac": 0.022725007180962136, "timer/env.step_avg": 0.00440781225908473, "timer/env.step_min": 0.002526521682739258, "timer/env.step_max": 0.030248165130615234, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.66631293296814, "timer/agent.policy_frac": 0.3688128701078389, "timer/agent.policy_avg": 0.07153607817257152, "timer/agent.policy_min": 0.002943277359008789, "timer/agent.policy_max": 0.1762838363647461, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.14961791038513184, "timer/dataset_train_frac": 0.0004986251867097234, "timer/dataset_train_avg": 9.671487419853383e-05, "timer/dataset_train_min": 5.841255187988281e-05, "timer/dataset_train_max": 0.0022399425506591797, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.20549273490906, "timer/agent.train_frac": 0.6038957663236437, "timer/agent.train_avg": 0.11713347946665098, "timer/agent.train_min": 0.10268855094909668, "timer/agent.train_max": 0.2739999294281006, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25934600830078125, "timer/agent.report_frac": 0.0008643113079077546, "timer/agent.report_avg": 0.12967300415039062, "timer/agent.report_min": 0.09800839424133301, "timer/agent.report_max": 0.16133761405944824, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.9604644775390625e-05, "timer/dataset_eval_frac": 1.9864184076219613e-07, "timer/dataset_eval_avg": 5.9604644775390625e-05, "timer/dataset_eval_min": 5.9604644775390625e-05, "timer/dataset_eval_max": 5.9604644775390625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17763161659240723, "timer/agent.save_frac": 0.0005919852627332294, "timer/agent.save_avg": 0.17763161659240723, "timer/agent.save_min": 0.17763161659240723, "timer/agent.save_max": 0.17763161659240723, "fps": 20.621433738453156}
{"step": 96952, "episode/length": 498.0, "episode/score": 500.0, "episode/reward_rate": 0.09819639278557114}
{"step": 98512, "episode/length": 389.0, "episode/score": 480.0, "episode/reward_rate": 0.12051282051282051}
{"step": 101312, "episode/length": 699.0, "episode/score": 570.0, "episode/reward_rate": 0.08}
{"step": 101348, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.069996692288306, "train/action_min": 0.0, "train/action_std": 3.9105813841665946, "train/actor_opt_grad_norm": 0.006651659577243751, "train/actor_opt_grad_steps": 23460.0, "train/actor_opt_loss": 0.0013975398984433511, "train/adv_mag": 0.5138556511171403, "train/adv_max": 0.4902412043463799, "train/adv_mean": 0.003345013107055791, "train/adv_min": -0.378408214353746, "train/adv_std": 0.03229208474438037, "train/cont_avg": 0.9982925907258065, "train/cont_loss_mean": 0.0015135269674990395, "train/cont_loss_std": 0.03263481192994262, "train/cont_neg_acc": 0.7378676485489396, "train/cont_neg_loss": 0.577615148097239, "train/cont_pos_acc": 0.9997978452713259, "train/cont_pos_loss": 0.0006146297844503762, "train/cont_pred": 0.9982967718955009, "train/cont_rate": 0.9982925907258065, "train/dyn_loss_mean": 2.9987150438370245, "train/dyn_loss_std": 4.986406981560492, "train/extr_critic_critic_opt_grad_norm": 1.3531647263034698, "train/extr_critic_critic_opt_grad_steps": 23460.0, "train/extr_critic_critic_opt_loss": 1.5822940695670342, "train/extr_critic_mag": 239.01160150343372, "train/extr_critic_max": 239.01160150343372, "train/extr_critic_mean": 81.56566454979681, "train/extr_critic_min": 0.25125364949626305, "train/extr_critic_std": 55.42746116884293, "train/extr_return_normed_mag": 1.3104250407988025, "train/extr_return_normed_max": 1.3104250407988025, "train/extr_return_normed_mean": 0.42240989852336147, "train/extr_return_normed_min": -0.024769135243109155, "train/extr_return_normed_std": 0.30472799241542814, "train/extr_return_rate": 0.9507968391141584, "train/extr_return_raw_mag": 244.79083025532384, "train/extr_return_raw_max": 244.79083025532384, "train/extr_return_raw_mean": 82.17778401528635, "train/extr_return_raw_min": 0.2824777156415005, "train/extr_return_raw_std": 55.80132798225649, "train/extr_reward_mag": 13.786255762653965, "train/extr_reward_max": 13.786255762653965, "train/extr_reward_mean": 0.5419401653351322, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.0722487172772808, "train/image_loss_mean": 1.855870235350824, "train/image_loss_std": 1.0980989517704134, "train/model_loss_mean": 3.7150184923602687, "train/model_loss_std": 3.723079869054979, "train/model_opt_grad_norm": 13.965366486580141, "train/model_opt_grad_steps": 23460.0, "train/model_opt_loss": 3.7150184923602687, "train/policy_entropy_mag": 2.6144992397677513, "train/policy_entropy_max": 2.6144992397677513, "train/policy_entropy_mean": 0.9610296145562203, "train/policy_entropy_min": 0.08020994735340918, "train/policy_entropy_std": 0.7447203582332981, "train/policy_logprob_mag": 7.495225727942682, "train/policy_logprob_max": -0.009491905930542176, "train/policy_logprob_mean": -0.9613236346552448, "train/policy_logprob_min": -7.495225727942682, "train/policy_logprob_std": 1.3369436548602196, "train/policy_randomness_mag": 0.9045546743177598, "train/policy_randomness_max": 0.9045546743177598, "train/policy_randomness_mean": 0.3324934380669748, "train/policy_randomness_min": 0.027750737820902177, "train/policy_randomness_std": 0.25765556529644995, "train/post_ent_mag": 50.07133995794481, "train/post_ent_max": 50.07133995794481, "train/post_ent_mean": 40.02199896535566, "train/post_ent_min": 21.203244547690115, "train/post_ent_std": 3.480573325003347, "train/prior_ent_mag": 69.6412578951928, "train/prior_ent_max": 69.6412578951928, "train/prior_ent_mean": 43.08366423576109, "train/prior_ent_min": 27.239614941996912, "train/prior_ent_std": 5.111576994003788, "train/rep_loss_mean": 2.9987150438370245, "train/rep_loss_std": 4.986406981560492, "train/reward_avg": 0.6733870967741935, "train/reward_loss_mean": 0.05840573188277983, "train/reward_loss_std": 0.2599433819132467, "train/reward_max_data": 24.06451612903226, "train/reward_max_pred": 13.199200784006427, "train/reward_neg_acc": 0.9669425948973625, "train/reward_neg_loss": 0.009720009916852559, "train/reward_pos_acc": 0.9870303711583538, "train/reward_pos_loss": 0.754973187369685, "train/reward_pred": 0.593786387097451, "train/reward_rate": 0.06583921370967742, "train_stats/mean_log_entropy": 0.9180437922477722, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0005549087072722614, "report/cont_loss_std": 0.011308886110782623, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11623441427946091, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002150080690626055, "report/cont_pred": 0.9971487522125244, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.8359479904174805, "report/dyn_loss_std": 5.086880683898926, "report/image_loss_mean": 1.6328321695327759, "report/image_loss_std": 1.012013554573059, "report/model_loss_mean": 3.382042407989502, "report/model_loss_std": 3.66918683052063, "report/post_ent_mag": 49.86812973022461, "report/post_ent_max": 49.86812973022461, "report/post_ent_mean": 40.007598876953125, "report/post_ent_min": 16.213958740234375, "report/post_ent_std": 3.6752383708953857, "report/prior_ent_mag": 70.71983337402344, "report/prior_ent_max": 70.71983337402344, "report/prior_ent_mean": 42.947349548339844, "report/prior_ent_min": 18.818510055541992, "report/prior_ent_std": 5.506750583648682, "report/rep_loss_mean": 2.8359479904174805, "report/rep_loss_std": 5.086880683898926, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.04708678275346756, "report/reward_loss_std": 0.18302994966506958, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008490562438965, "report/reward_neg_acc": 0.9780104756355286, "report/reward_neg_loss": 0.005153979640454054, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6274610161781311, "report/reward_pred": 0.6248354911804199, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.003503071144223213, "eval/cont_loss_std": 0.061656609177589417, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.3821640014648438, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0008051047916524112, "eval/cont_pred": 0.9987447261810303, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.704658508300781, "eval/dyn_loss_std": 9.049999237060547, "eval/image_loss_mean": 5.292411804199219, "eval/image_loss_std": 3.4629056453704834, "eval/model_loss_mean": 13.943260192871094, "eval/model_loss_std": 8.437280654907227, "eval/post_ent_mag": 50.16082000732422, "eval/post_ent_max": 50.16082000732422, "eval/post_ent_mean": 38.9982795715332, "eval/post_ent_min": 27.095792770385742, "eval/post_ent_std": 3.9160172939300537, "eval/prior_ent_mag": 70.71983337402344, "eval/prior_ent_max": 70.71983337402344, "eval/prior_ent_mean": 44.743492126464844, "eval/prior_ent_min": 32.97898864746094, "eval/prior_ent_std": 5.586122989654541, "eval/rep_loss_mean": 13.704658508300781, "eval/rep_loss_std": 9.049999237060547, "eval/reward_avg": 0.33203125, "eval/reward_loss_mean": 0.42455074191093445, "eval/reward_loss_std": 2.4070236682891846, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.988003730773926, "eval/reward_neg_acc": 0.9393938779830933, "eval/reward_neg_loss": 0.04872133210301399, "eval/reward_pos_acc": 0.20588235557079315, "eval/reward_pos_loss": 11.367818832397461, "eval/reward_pred": 0.13397684693336487, "eval/reward_rate": 0.033203125, "replay/size": 56768.0, "replay/inserts": 1550.0, "replay/samples": 24800.0, "replay/insert_wait_avg": 4.944647512128276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3164935573454825e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0937144756317, "timer/replay._sample_count": 24800.0, "timer/replay._sample_total": 371.05333042144775, "timer/replay._sample_frac": 1.2364581879690724, "timer/replay._sample_avg": 0.014961827839574506, "timer/replay._sample_min": 0.0004570484161376953, "timer/replay._sample_max": 0.042435646057128906, "timer/env.step_count": 1550.0, "timer/env.step_total": 6.797662258148193, "timer/env.step_frac": 0.022651798189195924, "timer/env.step_avg": 0.004385588553643995, "timer/env.step_min": 0.002421855926513672, "timer/env.step_max": 0.029241561889648438, "timer/agent.policy_count": 1550.0, "timer/agent.policy_total": 111.1503415107727, "timer/agent.policy_frac": 0.3703854367792777, "timer/agent.policy_avg": 0.07170989774888561, "timer/agent.policy_min": 0.0028052330017089844, "timer/agent.policy_max": 0.08755350112915039, "timer/dataset_train_count": 1550.0, "timer/dataset_train_total": 0.1520853042602539, "timer/dataset_train_frac": 0.000506792701493265, "timer/dataset_train_avg": 9.811955113564769e-05, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.00034308433532714844, "timer/agent.train_count": 1550.0, "timer/agent.train_total": 180.76002383232117, "timer/agent.train_frac": 0.6023452512098493, "timer/agent.train_avg": 0.11661937021440075, "timer/agent.train_min": 0.10232424736022949, "timer/agent.train_max": 0.20461082458496094, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26224422454833984, "timer/agent.report_frac": 0.000873874432880315, "timer/agent.report_avg": 0.13112211227416992, "timer/agent.report_min": 0.1019284725189209, "timer/agent.report_max": 0.16031575202941895, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.031990051269531e-05, "timer/dataset_eval_frac": 2.0100354523617797e-07, "timer/dataset_eval_avg": 6.031990051269531e-05, "timer/dataset_eval_min": 6.031990051269531e-05, "timer/dataset_eval_max": 6.031990051269531e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.659052464573325}
{"step": 102964, "episode/length": 412.0, "episode/score": 480.0, "episode/reward_rate": 0.1162227602905569}
{"step": 105228, "episode/length": 565.0, "episode/score": 570.0, "episode/reward_rate": 0.0989399293286219}
{"step": 106792, "episode/length": 390.0, "episode/score": 470.0, "episode/reward_rate": 0.11764705882352941}
{"step": 107540, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.116602350050403, "train/action_min": 0.0, "train/action_std": 3.814914632612659, "train/actor_opt_grad_norm": 0.006472148211492646, "train/actor_opt_grad_steps": 25010.0, "train/actor_opt_loss": 0.001671884524154349, "train/adv_mag": 0.4892391383647919, "train/adv_max": 0.4631332632034056, "train/adv_mean": 0.003296466359801519, "train/adv_min": -0.3693067990003094, "train/adv_std": 0.03057841425461154, "train/cont_avg": 0.9985446068548387, "train/cont_loss_mean": 0.0015105952049328064, "train/cont_loss_std": 0.03373171097257528, "train/cont_neg_acc": 0.7720959604238019, "train/cont_neg_loss": 0.5924395946139791, "train/cont_pos_acc": 0.9998421526724293, "train/cont_pos_loss": 0.000581846620125068, "train/cont_pred": 0.99853745583565, "train/cont_rate": 0.9985446068548387, "train/dyn_loss_mean": 2.9480407207242902, "train/dyn_loss_std": 5.043006398600917, "train/extr_critic_critic_opt_grad_norm": 1.3860963209982842, "train/extr_critic_critic_opt_grad_steps": 25010.0, "train/extr_critic_critic_opt_loss": 1.5664861894422961, "train/extr_critic_mag": 246.89258097987022, "train/extr_critic_max": 246.89258097987022, "train/extr_critic_mean": 85.99629656883978, "train/extr_critic_min": 0.130533782897457, "train/extr_critic_std": 56.8536933283652, "train/extr_return_normed_mag": 1.2963140006988279, "train/extr_return_normed_max": 1.2963140006988279, "train/extr_return_normed_mean": 0.41757218539714813, "train/extr_return_normed_min": -0.029169866142253722, "train/extr_return_normed_std": 0.2952690784008272, "train/extr_return_rate": 0.9605297015559289, "train/extr_return_raw_mag": 256.69259889664187, "train/extr_return_raw_max": 256.69259889664187, "train/extr_return_raw_mean": 86.6332639878796, "train/extr_return_raw_min": 0.13847291755580132, "train/extr_return_raw_std": 57.15950351838143, "train/extr_reward_mag": 14.186817495284542, "train/extr_reward_max": 14.186817495284542, "train/extr_reward_mean": 0.559364737233808, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.113513579676228, "train/image_loss_mean": 1.8018275891580888, "train/image_loss_std": 1.0924697253011888, "train/model_loss_mean": 3.6293913256737493, "train/model_loss_std": 3.7536118061311785, "train/model_opt_grad_norm": 12.736040361465946, "train/model_opt_grad_steps": 25010.0, "train/model_opt_loss": 3.6293913256737493, "train/policy_entropy_mag": 2.635549343785932, "train/policy_entropy_max": 2.635549343785932, "train/policy_entropy_mean": 0.9567263918538247, "train/policy_entropy_min": 0.08020613635739972, "train/policy_entropy_std": 0.7525128149217175, "train/policy_logprob_mag": 7.495248865312146, "train/policy_logprob_max": -0.009491400847271566, "train/policy_logprob_mean": -0.9562678794707021, "train/policy_logprob_min": -7.495248865312146, "train/policy_logprob_std": 1.3359389628133467, "train/policy_randomness_mag": 0.9118375147542646, "train/policy_randomness_max": 0.9118375147542646, "train/policy_randomness_mean": 0.3310046212327096, "train/policy_randomness_min": 0.027749419356546096, "train/policy_randomness_std": 0.2603515713445602, "train/post_ent_mag": 50.22107964792559, "train/post_ent_max": 50.22107964792559, "train/post_ent_mean": 40.326766992384385, "train/post_ent_min": 20.751287644909276, "train/post_ent_std": 3.439024935999224, "train/prior_ent_mag": 70.73351041732296, "train/prior_ent_max": 70.73351041732296, "train/prior_ent_mean": 43.325301902524885, "train/prior_ent_min": 26.847712916712606, "train/prior_ent_std": 5.14430481080086, "train/rep_loss_mean": 2.9480407207242902, "train/rep_loss_std": 5.043006398600917, "train/reward_avg": 0.6712449596774194, "train/reward_loss_mean": 0.05722874052101566, "train/reward_loss_std": 0.25216808261409884, "train/reward_max_data": 20.322580645161292, "train/reward_max_pred": 13.362942978643602, "train/reward_neg_acc": 0.9688335607128759, "train/reward_neg_loss": 0.009246277493695098, "train/reward_pos_acc": 0.9887213703124754, "train/reward_pos_loss": 0.7383639266414027, "train/reward_pred": 0.5976408575811694, "train/reward_rate": 0.06597782258064516, "train_stats/mean_log_entropy": 0.7770682374636332, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.7081156076746993e-05, "report/cont_loss_std": 0.0004176294314675033, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.006994720082730055, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.0270170352887362e-05, "report/cont_pred": 0.9990100860595703, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.7902181148529053, "report/dyn_loss_std": 5.058316707611084, "report/image_loss_mean": 1.766037940979004, "report/image_loss_std": 0.9865362644195557, "report/model_loss_mean": 3.500622034072876, "report/model_loss_std": 3.6632845401763916, "report/post_ent_mag": 50.199378967285156, "report/post_ent_max": 50.199378967285156, "report/post_ent_mean": 40.03754806518555, "report/post_ent_min": 28.43734359741211, "report/post_ent_std": 3.460266351699829, "report/prior_ent_mag": 71.1999740600586, "report/prior_ent_max": 71.1999740600586, "report/prior_ent_mean": 42.7669677734375, "report/prior_ent_min": 32.42087173461914, "report/prior_ent_std": 5.097417831420898, "report/rep_loss_mean": 2.7902181148529053, "report/rep_loss_std": 5.058316707611084, "report/reward_avg": 0.6640625, "report/reward_loss_mean": 0.06042627990245819, "report/reward_loss_std": 0.27690577507019043, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.10581398010254, "report/reward_neg_acc": 0.9728317260742188, "report/reward_neg_loss": 0.011729645542800426, "report/reward_pos_acc": 0.9850746393203735, "report/reward_pos_loss": 0.7559886574745178, "report/reward_pred": 0.5973180532455444, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0028422677423805, "eval/cont_loss_std": 0.05658331140875816, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.7861969470977783, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.002076525706797838, "eval/cont_pred": 0.9983091354370117, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.36882495880127, "eval/dyn_loss_std": 8.366488456726074, "eval/image_loss_mean": 5.419399261474609, "eval/image_loss_std": 3.088754892349243, "eval/model_loss_mean": 14.460437774658203, "eval/model_loss_std": 7.702531814575195, "eval/post_ent_mag": 52.91291046142578, "eval/post_ent_max": 52.91291046142578, "eval/post_ent_mean": 39.44083786010742, "eval/post_ent_min": 29.774181365966797, "eval/post_ent_std": 3.653843879699707, "eval/prior_ent_mag": 71.1999740600586, "eval/prior_ent_max": 71.1999740600586, "eval/prior_ent_mean": 44.51904296875, "eval/prior_ent_min": 30.82401466369629, "eval/prior_ent_std": 5.14742374420166, "eval/rep_loss_mean": 14.36882495880127, "eval/rep_loss_std": 8.366488456726074, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.41690176725387573, "eval/reward_loss_std": 2.451430082321167, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.921520233154297, "eval/reward_neg_acc": 0.9606854319572449, "eval/reward_neg_loss": 0.023976963013410568, "eval/reward_pos_acc": 0.09375, "eval/reward_pos_loss": 12.597570419311523, "eval/reward_pred": 0.07019227743148804, "eval/reward_rate": 0.03125, "replay/size": 58316.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.9809152765791545e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3296591065034694e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.339482307434082e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0115463733673, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 377.4679822921753, "timer/replay._sample_frac": 1.2581781829903729, "timer/replay._sample_avg": 0.015240147863863667, "timer/replay._sample_min": 0.0004513263702392578, "timer/replay._sample_max": 0.048267364501953125, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.8228232860565186, "timer/env.step_frac": 0.02274186899981992, "timer/env.step_avg": 0.004407508582723849, "timer/env.step_min": 0.0024192333221435547, "timer/env.step_max": 0.03317856788635254, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.96830987930298, "timer/agent.policy_frac": 0.36988013035072265, "timer/agent.policy_avg": 0.07168495470239211, "timer/agent.policy_min": 0.002824068069458008, "timer/agent.policy_max": 0.08675265312194824, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15360212326049805, "timer/dataset_train_frac": 0.0005119873722104638, "timer/dataset_train_avg": 9.922617781685921e-05, "timer/dataset_train_min": 5.698204040527344e-05, "timer/dataset_train_max": 0.00029206275939941406, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.83835196495056, "timer/agent.train_frac": 0.6027713071412774, "timer/agent.train_avg": 0.11682064080423163, "timer/agent.train_min": 0.10328912734985352, "timer/agent.train_max": 0.20055818557739258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2655494213104248, "timer/agent.report_frac": 0.0008851306708707336, "timer/agent.report_avg": 0.1327747106552124, "timer/agent.report_min": 0.09786128997802734, "timer/agent.report_max": 0.16768813133239746, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.749961853027344e-05, "timer/dataset_eval_frac": 2.9165416994111054e-07, "timer/dataset_eval_avg": 8.749961853027344e-05, "timer/dataset_eval_min": 8.749961853027344e-05, "timer/dataset_eval_max": 8.749961853027344e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63813704369876}
{"step": 108164, "episode/length": 342.0, "episode/score": 460.0, "episode/reward_rate": 0.13411078717201166}
{"step": 109608, "episode/length": 360.0, "episode/score": 500.0, "episode/reward_rate": 0.13573407202216067}
{"step": 111272, "episode/length": 415.0, "episode/score": 350.0, "episode/reward_rate": 0.08173076923076923}
{"step": 113388, "episode/length": 528.0, "episode/score": 910.0, "episode/reward_rate": 0.07939508506616257}
{"step": 113728, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.171788369455646, "train/action_min": 0.0, "train/action_std": 3.746647297951483, "train/actor_opt_grad_norm": 0.006088169456850137, "train/actor_opt_grad_steps": 26560.0, "train/actor_opt_loss": 0.0009366153943354279, "train/adv_mag": 0.4741095810167251, "train/adv_max": 0.4409348556110936, "train/adv_mean": 0.002385632777969154, "train/adv_min": -0.37221558574707275, "train/adv_std": 0.028363332777254044, "train/cont_avg": 0.9983492943548387, "train/cont_loss_mean": 0.0015061367401226415, "train/cont_loss_std": 0.0318985167993428, "train/cont_neg_acc": 0.7833891394548118, "train/cont_neg_loss": 0.5620367133207083, "train/cont_pos_acc": 0.9997725452146222, "train/cont_pos_loss": 0.0006345387051235393, "train/cont_pred": 0.9983073426831153, "train/cont_rate": 0.9983492943548387, "train/dyn_loss_mean": 2.890676539944064, "train/dyn_loss_std": 5.15324070530553, "train/extr_critic_critic_opt_grad_norm": 1.3008903476499742, "train/extr_critic_critic_opt_grad_steps": 26560.0, "train/extr_critic_critic_opt_loss": 1.4982108039240682, "train/extr_critic_mag": 261.11197332566786, "train/extr_critic_max": 261.11197332566786, "train/extr_critic_mean": 92.36514269921088, "train/extr_critic_min": 0.3685221710512715, "train/extr_critic_std": 60.66310686911306, "train/extr_return_normed_mag": 1.2729001698955413, "train/extr_return_normed_max": 1.2729001698955413, "train/extr_return_normed_mean": 0.43298063287811894, "train/extr_return_normed_min": -0.02690938064648259, "train/extr_return_normed_std": 0.30251409228770965, "train/extr_return_rate": 0.9582107320908577, "train/extr_return_raw_mag": 261.9528406943044, "train/extr_return_raw_max": 261.9528406943044, "train/extr_return_raw_mean": 92.84459464780745, "train/extr_return_raw_min": 0.2950966549496497, "train/extr_return_raw_std": 60.917019517960085, "train/extr_reward_mag": 15.84164653901131, "train/extr_reward_max": 15.84164653901131, "train/extr_reward_mean": 0.5837628648165734, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.179524008689388, "train/image_loss_mean": 1.7174704067168698, "train/image_loss_std": 1.0572420500939892, "train/model_loss_mean": 3.508242570200274, "train/model_loss_std": 3.791232102917087, "train/model_opt_grad_norm": 12.78145326798962, "train/model_opt_grad_steps": 26560.0, "train/model_opt_loss": 3.508242570200274, "train/policy_entropy_mag": 2.6312310095756284, "train/policy_entropy_max": 2.6312310095756284, "train/policy_entropy_mean": 0.9532857483433139, "train/policy_entropy_min": 0.08020774087598247, "train/policy_entropy_std": 0.7408957262193003, "train/policy_logprob_mag": 7.495277457083425, "train/policy_logprob_max": -0.009491618692634566, "train/policy_logprob_mean": -0.9524288662018314, "train/policy_logprob_min": -7.495277457083425, "train/policy_logprob_std": 1.3300245400398008, "train/policy_randomness_mag": 0.9103434716501544, "train/policy_randomness_max": 0.9103434716501544, "train/policy_randomness_mean": 0.32981424149005645, "train/policy_randomness_min": 0.027749974532954153, "train/policy_randomness_std": 0.2563323348760605, "train/post_ent_mag": 50.62008514404297, "train/post_ent_max": 50.62008514404297, "train/post_ent_mean": 40.50448290917181, "train/post_ent_min": 20.45335785650438, "train/post_ent_std": 3.4928207551279375, "train/prior_ent_mag": 71.68397925592238, "train/prior_ent_max": 71.68397925592238, "train/prior_ent_mean": 43.46036029938728, "train/prior_ent_min": 25.626772714430285, "train/prior_ent_std": 5.232154123244747, "train/rep_loss_mean": 2.890676539944064, "train/rep_loss_std": 5.15324070530553, "train/reward_avg": 0.6864289314516129, "train/reward_loss_mean": 0.05486014260640067, "train/reward_loss_std": 0.24653427855622384, "train/reward_max_data": 24.06451612903226, "train/reward_max_pred": 16.00405800727106, "train/reward_neg_acc": 0.9732124501659024, "train/reward_neg_loss": 0.00785834002008121, "train/reward_pos_acc": 0.9910652291390204, "train/reward_pos_loss": 0.7105091998654027, "train/reward_pred": 0.6206406937491509, "train/reward_rate": 0.06713709677419355, "train_stats/mean_log_entropy": 0.7474707514047623, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.516749064961914e-06, "report/cont_loss_std": 9.48136075749062e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0003306168073322624, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.200912477856036e-06, "report/cont_pred": 0.9990166425704956, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.738337993621826, "report/dyn_loss_std": 5.256640434265137, "report/image_loss_mean": 1.5565872192382812, "report/image_loss_std": 0.9620033502578735, "report/model_loss_mean": 3.2171850204467773, "report/model_loss_std": 3.75736665725708, "report/post_ent_mag": 49.84254837036133, "report/post_ent_max": 49.84254837036133, "report/post_ent_mean": 41.02577590942383, "report/post_ent_min": 20.405742645263672, "report/post_ent_std": 3.4003682136535645, "report/prior_ent_mag": 72.01425170898438, "report/prior_ent_max": 72.01425170898438, "report/prior_ent_mean": 43.671260833740234, "report/prior_ent_min": 27.625534057617188, "report/prior_ent_std": 4.9706268310546875, "report/rep_loss_mean": 2.738337993621826, "report/rep_loss_std": 5.256640434265137, "report/reward_avg": 0.244140625, "report/reward_loss_mean": 0.017587631940841675, "report/reward_loss_std": 0.10198506712913513, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.002193450927734, "report/reward_neg_acc": 0.9839839935302734, "report/reward_neg_loss": 0.003017920535057783, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5997933149337769, "report/reward_pred": 0.23220396041870117, "report/reward_rate": 0.0244140625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.8155715224565938e-06, "eval/cont_loss_std": 2.228426637884695e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.8155715224565938e-06, "eval/cont_pred": 0.9999982118606567, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.079886436462402, "eval/dyn_loss_std": 10.230541229248047, "eval/image_loss_mean": 4.90562629699707, "eval/image_loss_std": 2.8495278358459473, "eval/model_loss_mean": 14.634346008300781, "eval/model_loss_std": 8.636077880859375, "eval/post_ent_mag": 50.185462951660156, "eval/post_ent_max": 50.185462951660156, "eval/post_ent_mean": 39.15668487548828, "eval/post_ent_min": 28.654603958129883, "eval/post_ent_std": 3.46531343460083, "eval/prior_ent_mag": 72.01425170898438, "eval/prior_ent_max": 72.01425170898438, "eval/prior_ent_mean": 44.242164611816406, "eval/prior_ent_min": 34.11616516113281, "eval/prior_ent_std": 4.812845706939697, "eval/rep_loss_mean": 15.079886436462402, "eval/rep_loss_std": 10.230541229248047, "eval/reward_avg": 0.478515625, "eval/reward_loss_mean": 0.6807867288589478, "eval/reward_loss_std": 3.2059051990509033, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.975814819335938, "eval/reward_neg_acc": 0.9466666579246521, "eval/reward_neg_loss": 0.03432470187544823, "eval/reward_pos_acc": 0.06122449040412903, "eval/reward_pos_loss": 13.544061660766602, "eval/reward_pred": 0.08691570907831192, "eval/reward_rate": 0.0478515625, "replay/size": 59863.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.855755767131822e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3314914765015831e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 7.3909759521484375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11669278144836, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 380.17280435562134, "timer/replay._sample_frac": 1.266749945936768, "timer/replay._sample_avg": 0.015359276194070029, "timer/replay._sample_min": 0.0004706382751464844, "timer/replay._sample_max": 0.20088720321655273, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.806710481643677, "timer/env.step_frac": 0.02268021288172889, "timer/env.step_avg": 0.00439994213422345, "timer/env.step_min": 0.0024666786193847656, "timer/env.step_max": 0.03469443321228027, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.06919431686401, "timer/agent.policy_frac": 0.3700866929043066, "timer/agent.policy_avg": 0.07179650569933033, "timer/agent.policy_min": 0.002963542938232422, "timer/agent.policy_max": 0.16332006454467773, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15535926818847656, "timer/dataset_train_frac": 0.0005176628688948423, "timer/dataset_train_avg": 0.00010042615913928673, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.00025725364685058594, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.8516058921814, "timer/agent.train_frac": 0.602604287739108, "timer/agent.train_avg": 0.11690472261938034, "timer/agent.train_min": 0.10381579399108887, "timer/agent.train_max": 0.20119118690490723, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25411057472229004, "timer/agent.report_frac": 0.0008467059008521696, "timer/agent.report_avg": 0.12705528736114502, "timer/agent.report_min": 0.09608197212219238, "timer/agent.report_max": 0.15802860260009766, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.008148193359375e-05, "timer/dataset_eval_frac": 2.0019373589907716e-07, "timer/dataset_eval_avg": 6.008148193359375e-05, "timer/dataset_eval_min": 6.008148193359375e-05, "timer/dataset_eval_max": 6.008148193359375e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10321998596191406, "timer/agent.save_frac": 0.00034393283827461457, "timer/agent.save_avg": 0.10321998596191406, "timer/agent.save_min": 0.10321998596191406, "timer/agent.save_max": 0.10321998596191406, "fps": 20.617464917776335}
{"step": 115052, "episode/length": 415.0, "episode/score": 480.0, "episode/reward_rate": 0.11298076923076923}
{"step": 116500, "episode/length": 361.0, "episode/score": 500.0, "episode/reward_rate": 0.13812154696132597}
{"step": 117728, "episode/length": 306.0, "episode/score": 420.0, "episode/reward_rate": 0.13680781758957655}
{"step": 119724, "episode/length": 498.0, "episode/score": 480.0, "episode/reward_rate": 0.09619238476953908}
{"step": 119920, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.131264963457662, "train/action_min": 0.0, "train/action_std": 3.8436058721234723, "train/actor_opt_grad_norm": 0.0062747369640536845, "train/actor_opt_grad_steps": 28110.0, "train/actor_opt_loss": 0.0012983597323322864, "train/adv_mag": 0.4736020113191297, "train/adv_max": 0.44557705069741893, "train/adv_mean": 0.0025538750291161706, "train/adv_min": -0.35709076850645005, "train/adv_std": 0.029014554475584337, "train/cont_avg": 0.9982232862903225, "train/cont_loss_mean": 0.0015592180671407526, "train/cont_loss_std": 0.03265155101629892, "train/cont_neg_acc": 0.7825641052081035, "train/cont_neg_loss": 0.5309369070891989, "train/cont_pos_acc": 0.9998231645553343, "train/cont_pos_loss": 0.0005666067296935521, "train/cont_pred": 0.9982554178084097, "train/cont_rate": 0.9982232862903225, "train/dyn_loss_mean": 2.965997369827763, "train/dyn_loss_std": 5.2585194772289645, "train/extr_critic_critic_opt_grad_norm": 1.3310428780894126, "train/extr_critic_critic_opt_grad_steps": 28110.0, "train/extr_critic_critic_opt_loss": 1.5355266171116984, "train/extr_critic_mag": 269.4060031029486, "train/extr_critic_max": 269.4060031029486, "train/extr_critic_mean": 94.60665534234816, "train/extr_critic_min": 0.16787398476754464, "train/extr_critic_std": 63.56735807849515, "train/extr_return_normed_mag": 1.2718463186294802, "train/extr_return_normed_max": 1.2718463186294802, "train/extr_return_normed_mean": 0.4292885484233979, "train/extr_return_normed_min": -0.025654182342752335, "train/extr_return_normed_std": 0.30496186392922553, "train/extr_return_rate": 0.954719469624181, "train/extr_return_raw_mag": 271.1558731571321, "train/extr_return_raw_max": 271.1558731571321, "train/extr_return_raw_mean": 95.14030540220199, "train/extr_return_raw_min": 0.09454343462092502, "train/extr_return_raw_std": 63.733604603428994, "train/extr_reward_mag": 19.05649551268547, "train/extr_reward_max": 19.05649551268547, "train/extr_reward_mean": 0.6078913485811602, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.2451994157606556, "train/image_loss_mean": 1.672230561317936, "train/image_loss_std": 1.0575747220746932, "train/model_loss_mean": 3.5110038465069184, "train/model_loss_std": 3.861461422520299, "train/model_opt_grad_norm": 13.220772524802916, "train/model_opt_grad_steps": 28110.0, "train/model_opt_loss": 3.5110038465069184, "train/policy_entropy_mag": 2.627412400707122, "train/policy_entropy_max": 2.627412400707122, "train/policy_entropy_mean": 0.9743772399040961, "train/policy_entropy_min": 0.08020401515306964, "train/policy_entropy_std": 0.7460348240790828, "train/policy_logprob_mag": 7.495218230832007, "train/policy_logprob_max": -0.009491112858297363, "train/policy_logprob_mean": -0.9730078412640479, "train/policy_logprob_min": -7.495218230832007, "train/policy_logprob_std": 1.330108094215393, "train/policy_randomness_mag": 0.9090223262386937, "train/policy_randomness_max": 0.9090223262386937, "train/policy_randomness_mean": 0.3371113969433692, "train/policy_randomness_min": 0.027748685486374363, "train/policy_randomness_std": 0.25811033883402423, "train/post_ent_mag": 51.377000181136594, "train/post_ent_max": 51.377000181136594, "train/post_ent_mean": 40.92876281738281, "train/post_ent_min": 20.1885436888664, "train/post_ent_std": 3.601903026334701, "train/prior_ent_mag": 72.63733254709551, "train/prior_ent_max": 72.63733254709551, "train/prior_ent_mean": 43.918960866620466, "train/prior_ent_min": 25.989858455042686, "train/prior_ent_std": 5.364434436059767, "train/rep_loss_mean": 2.965997369827763, "train/rep_loss_std": 5.2585194772289645, "train/reward_avg": 0.723664314516129, "train/reward_loss_mean": 0.05761566520217926, "train/reward_loss_std": 0.2495983132431584, "train/reward_max_data": 36.32258064516129, "train/reward_max_pred": 16.9063540181806, "train/reward_neg_acc": 0.9707798296405423, "train/reward_neg_loss": 0.0086330552472763, "train/reward_pos_acc": 0.9897587741574934, "train/reward_pos_loss": 0.7164520282899179, "train/reward_pred": 0.6438776500763431, "train/reward_rate": 0.0696257560483871, "train_stats/mean_log_entropy": 0.7727629542350769, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.001072257524356246, "report/cont_loss_std": 0.03002985566854477, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.06532027572393417, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.001009453902952373, "report/cont_pred": 0.998412013053894, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.641958236694336, "report/dyn_loss_std": 5.247948169708252, "report/image_loss_mean": 1.5719871520996094, "report/image_loss_std": 1.0430781841278076, "report/model_loss_mean": 3.203484296798706, "report/model_loss_std": 3.8099234104156494, "report/post_ent_mag": 52.312774658203125, "report/post_ent_max": 52.312774658203125, "report/post_ent_mean": 41.303672790527344, "report/post_ent_min": 19.035839080810547, "report/post_ent_std": 3.831791877746582, "report/prior_ent_mag": 73.053955078125, "report/prior_ent_max": 73.053955078125, "report/prior_ent_mean": 44.02222442626953, "report/prior_ent_min": 24.329547882080078, "report/prior_ent_std": 5.332783222198486, "report/rep_loss_mean": 2.641958236694336, "report/rep_loss_std": 5.247948169708252, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 0.04524994641542435, "report/reward_loss_std": 0.18929758667945862, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.007393836975098, "report/reward_neg_acc": 0.9812108874320984, "report/reward_neg_loss": 0.004314809571951628, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6394296288490295, "report/reward_pred": 0.5989025831222534, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001578873605467379, "eval/cont_loss_std": 0.033838775008916855, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.8651199340820312, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0007347475620917976, "eval/cont_pred": 0.9990246295928955, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.934792518615723, "eval/dyn_loss_std": 9.020936965942383, "eval/image_loss_mean": 4.6504807472229, "eval/image_loss_std": 2.907381772994995, "eval/model_loss_mean": 12.869865417480469, "eval/model_loss_std": 7.986644268035889, "eval/post_ent_mag": 52.024654388427734, "eval/post_ent_max": 52.024654388427734, "eval/post_ent_mean": 40.93798828125, "eval/post_ent_min": 28.45954132080078, "eval/post_ent_std": 3.549592971801758, "eval/prior_ent_mag": 73.053955078125, "eval/prior_ent_max": 73.053955078125, "eval/prior_ent_mean": 46.167850494384766, "eval/prior_ent_min": 34.734493255615234, "eval/prior_ent_std": 5.132050514221191, "eval/rep_loss_mean": 12.934792518615723, "eval/rep_loss_std": 9.020936965942383, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.4569298028945923, "eval/reward_loss_std": 2.3945295810699463, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.95016098022461, "eval/reward_neg_acc": 0.9422491788864136, "eval/reward_neg_loss": 0.03370290249586105, "eval/reward_pos_acc": 0.0810810774564743, "eval/reward_pos_loss": 11.746794700622559, "eval/reward_pred": 0.1089320033788681, "eval/reward_rate": 0.0361328125, "replay/size": 61411.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.862784107218109e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3234984197049794e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9371509552001953e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1316673755646, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 379.6097779273987, "timer/replay._sample_frac": 1.2648108120239794, "timer/replay._sample_avg": 0.015326622170841355, "timer/replay._sample_min": 0.00044465065002441406, "timer/replay._sample_max": 0.04435920715332031, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.863364934921265, "timer/env.step_frac": 0.022867846618573946, "timer/env.step_avg": 0.00443369827837291, "timer/env.step_min": 0.0023202896118164062, "timer/env.step_max": 0.03109455108642578, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.09150242805481, "timer/agent.policy_frac": 0.3701425557638421, "timer/agent.policy_avg": 0.07176453645223178, "timer/agent.policy_min": 0.003062009811401367, "timer/agent.policy_max": 0.0861959457397461, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15385198593139648, "timer/dataset_train_frac": 0.0005126149708783528, "timer/dataset_train_avg": 9.938758781097964e-05, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.00027823448181152344, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.85200428962708, "timer/agent.train_frac": 0.6025755491616319, "timer/agent.train_avg": 0.116829460135418, "timer/agent.train_min": 0.10388588905334473, "timer/agent.train_max": 0.20202302932739258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19525909423828125, "timer/agent.report_frac": 0.0006505781144178536, "timer/agent.report_avg": 0.09762954711914062, "timer/agent.report_min": 0.09718894958496094, "timer/agent.report_max": 0.09807014465332031, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.888938903808594e-05, "timer/dataset_eval_frac": 1.9621184779677286e-07, "timer/dataset_eval_avg": 5.888938903808594e-05, "timer/dataset_eval_min": 5.888938903808594e-05, "timer/dataset_eval_max": 5.888938903808594e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.62969552372082}
{"step": 121260, "episode/length": 383.0, "episode/score": 460.0, "episode/reward_rate": 0.1171875}
{"step": 123416, "episode/length": 538.0, "episode/score": 1090.0, "episode/reward_rate": 0.11131725417439703}
{"step": 125236, "episode/length": 454.0, "episode/score": 500.0, "episode/reward_rate": 0.10989010989010989}
{"step": 126108, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.038385960962865, "train/action_min": 0.0, "train/action_std": 3.884924151680686, "train/actor_opt_grad_norm": 0.006149806826097237, "train/actor_opt_grad_steps": 29655.0, "train/actor_opt_loss": 0.0009868810907864354, "train/adv_mag": 0.48017972165888007, "train/adv_max": 0.4591787473915459, "train/adv_mean": 0.0023664368460768774, "train/adv_min": -0.3362315302932417, "train/adv_std": 0.0282728611673047, "train/cont_avg": 0.9981229707792207, "train/cont_loss_mean": 0.0016643451538941787, "train/cont_loss_std": 0.03596008988273746, "train/cont_neg_acc": 0.7640547292001212, "train/cont_neg_loss": 0.5548400857304258, "train/cont_pos_acc": 0.9998219400257259, "train/cont_pos_loss": 0.0005824629567649487, "train/cont_pred": 0.9981875760214669, "train/cont_rate": 0.9981229707792207, "train/dyn_loss_mean": 2.878765423576553, "train/dyn_loss_std": 5.241650946728595, "train/extr_critic_critic_opt_grad_norm": 1.3082358469436695, "train/extr_critic_critic_opt_grad_steps": 29655.0, "train/extr_critic_critic_opt_loss": 1.5261849931308202, "train/extr_critic_mag": 271.55440194266185, "train/extr_critic_max": 271.55440194266185, "train/extr_critic_mean": 97.0331777349695, "train/extr_critic_min": 0.37144350231467904, "train/extr_critic_std": 64.46482759946352, "train/extr_return_normed_mag": 1.2933971758012648, "train/extr_return_normed_max": 1.2933971758012648, "train/extr_return_normed_mean": 0.4327689575684535, "train/extr_return_normed_min": -0.026125304035044143, "train/extr_return_normed_std": 0.3049849724614775, "train/extr_return_rate": 0.9617775636059898, "train/extr_return_raw_mag": 279.91572491534345, "train/extr_return_raw_max": 279.91572491534345, "train/extr_return_raw_mean": 97.53428196597409, "train/extr_return_raw_min": 0.27380818517896793, "train/extr_return_raw_std": 64.67506577132585, "train/extr_reward_mag": 27.125334504362826, "train/extr_reward_max": 27.125334504362826, "train/extr_reward_mean": 0.6154349609822422, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.312168837367714, "train/image_loss_mean": 1.5988922010768543, "train/image_loss_std": 1.0120329667221417, "train/model_loss_mean": 3.3852975027901784, "train/model_loss_std": 3.812399342462614, "train/model_opt_grad_norm": 12.34241222715997, "train/model_opt_grad_steps": 29655.0, "train/model_opt_loss": 3.3852975027901784, "train/policy_entropy_mag": 2.625355496034994, "train/policy_entropy_max": 2.625355496034994, "train/policy_entropy_mean": 0.9549966299688661, "train/policy_entropy_min": 0.08020777685882209, "train/policy_entropy_std": 0.7336934007607497, "train/policy_logprob_mag": 7.495320013591221, "train/policy_logprob_max": -0.00949162295596166, "train/policy_logprob_mean": -0.9550103626467965, "train/policy_logprob_min": -7.495320013591221, "train/policy_logprob_std": 1.3200513279283201, "train/policy_randomness_mag": 0.9083106839037561, "train/policy_randomness_max": 0.9083106839037561, "train/policy_randomness_mean": 0.33040616738718825, "train/policy_randomness_min": 0.027749986932068677, "train/policy_randomness_std": 0.25384049998088315, "train/post_ent_mag": 52.136819121125455, "train/post_ent_max": 52.136819121125455, "train/post_ent_mean": 41.244956846361035, "train/post_ent_min": 20.767202389704718, "train/post_ent_std": 3.6667691778827023, "train/prior_ent_mag": 73.47221622219334, "train/prior_ent_max": 73.47221622219334, "train/prior_ent_mean": 44.168333350838004, "train/prior_ent_min": 26.09321963322627, "train/prior_ent_std": 5.47889316856087, "train/rep_loss_mean": 2.878765423576553, "train/rep_loss_std": 5.241650946728595, "train/reward_avg": 0.7284902597402597, "train/reward_loss_mean": 0.057481718116572926, "train/reward_loss_std": 0.2472869757708017, "train/reward_max_data": 33.246753246753244, "train/reward_max_pred": 22.65848785871035, "train/reward_neg_acc": 0.9712748829420511, "train/reward_neg_loss": 0.008580804149342048, "train/reward_pos_acc": 0.9912330121188969, "train/reward_pos_loss": 0.7122701313588526, "train/reward_pred": 0.6594894725780982, "train/reward_rate": 0.07043298498376624, "train_stats/mean_log_entropy": 0.8353110949198405, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.001978224841877818, "report/cont_loss_std": 0.0382450632750988, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.0328603982925415, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0009705201373435557, "report/cont_pred": 0.9988600015640259, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.318166971206665, "report/dyn_loss_std": 5.490403175354004, "report/image_loss_mean": 1.7599661350250244, "report/image_loss_std": 1.0834779739379883, "report/model_loss_mean": 3.8605408668518066, "report/model_loss_std": 4.0983500480651855, "report/post_ent_mag": 54.377769470214844, "report/post_ent_max": 54.377769470214844, "report/post_ent_mean": 42.014774322509766, "report/post_ent_min": 15.878244400024414, "report/post_ent_std": 3.8979482650756836, "report/prior_ent_mag": 73.9106674194336, "report/prior_ent_max": 73.9106674194336, "report/prior_ent_mean": 45.295021057128906, "report/prior_ent_min": 21.533119201660156, "report/prior_ent_std": 5.759658336639404, "report/rep_loss_mean": 3.318166971206665, "report/rep_loss_std": 5.490403175354004, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.10769619047641754, "report/reward_loss_std": 0.6498751640319824, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.011021614074707, "report/reward_neg_acc": 0.9543524980545044, "report/reward_neg_loss": 0.015047518536448479, "report/reward_pos_acc": 0.9512194991111755, "report/reward_pos_loss": 1.1720259189605713, "report/reward_pred": 0.6522966027259827, "report/reward_rate": 0.080078125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.006852388381958008, "eval/cont_loss_std": 0.11802928894758224, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.7269232869148254, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.005443247500807047, "eval/cont_pred": 0.9963740110397339, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 15.19369125366211, "eval/dyn_loss_std": 9.22302532196045, "eval/image_loss_mean": 5.683477401733398, "eval/image_loss_std": 3.258366346359253, "eval/model_loss_mean": 15.258946418762207, "eval/model_loss_std": 8.454243659973145, "eval/post_ent_mag": 54.22716522216797, "eval/post_ent_max": 54.22716522216797, "eval/post_ent_mean": 41.190338134765625, "eval/post_ent_min": 28.864513397216797, "eval/post_ent_std": 3.623810052871704, "eval/prior_ent_mag": 73.9106674194336, "eval/prior_ent_max": 73.9106674194336, "eval/prior_ent_mean": 46.426536560058594, "eval/prior_ent_min": 34.91632080078125, "eval/prior_ent_std": 5.65040397644043, "eval/rep_loss_mean": 15.19369125366211, "eval/rep_loss_std": 9.22302532196045, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4524010121822357, "eval/reward_loss_std": 2.6028668880462646, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994441986083984, "eval/reward_neg_acc": 0.9566968679428101, "eval/reward_neg_loss": 0.03315136954188347, "eval/reward_pos_acc": 0.06451612710952759, "eval/reward_pos_loss": 13.881913185119629, "eval/reward_pred": 0.08724343776702881, "eval/reward_rate": 0.0302734375, "replay/size": 62958.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.957626924718205e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.324922250946183e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.8461217880249023e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1503188610077, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 379.8302252292633, "timer/replay._sample_frac": 1.2654666724014159, "timer/replay._sample_avg": 0.015345435731628285, "timer/replay._sample_min": 0.0003962516784667969, "timer/replay._sample_max": 0.037612199783325195, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.810690879821777, "timer/env.step_frac": 0.022690933348552073, "timer/env.step_avg": 0.004402515113006967, "timer/env.step_min": 0.002305269241333008, "timer/env.step_max": 0.03198838233947754, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.14530515670776, "timer/agent.policy_frac": 0.3702988075390866, "timer/agent.policy_avg": 0.07184570469082596, "timer/agent.policy_min": 0.0029549598693847656, "timer/agent.policy_max": 0.0901176929473877, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1607043743133545, "timer/dataset_train_frac": 0.0005354129721507068, "timer/dataset_train_avg": 0.00010388130207715222, "timer/dataset_train_min": 5.555152893066406e-05, "timer/dataset_train_max": 0.0018470287322998047, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.79026770591736, "timer/agent.train_frac": 0.6023324192756795, "timer/agent.train_avg": 0.11686507285450379, "timer/agent.train_min": 0.10296273231506348, "timer/agent.train_max": 0.20266056060791016, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26195359230041504, "timer/agent.report_frac": 0.0008727413427194105, "timer/agent.report_avg": 0.13097679615020752, "timer/agent.report_min": 0.0996243953704834, "timer/agent.report_max": 0.16232919692993164, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.9604644775390625e-05, "timer/dataset_eval_frac": 1.9858264686032897e-07, "timer/dataset_eval_avg": 5.9604644775390625e-05, "timer/dataset_eval_min": 5.9604644775390625e-05, "timer/dataset_eval_max": 5.9604644775390625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.614952236022425}
{"step": 126616, "episode/length": 344.0, "episode/score": 470.0, "episode/reward_rate": 0.13333333333333333}
{"step": 128088, "episode/length": 367.0, "episode/score": 460.0, "episode/reward_rate": 0.125}
{"step": 129712, "episode/length": 405.0, "episode/score": 480.0, "episode/reward_rate": 0.11576354679802955}
{"step": 132284, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.211310011340727, "train/action_min": 0.0, "train/action_std": 3.9363074118091212, "train/actor_opt_grad_norm": 0.0060428959768145316, "train/actor_opt_grad_steps": 31200.0, "train/actor_opt_loss": 0.000917782570254824, "train/adv_mag": 0.47766382050129674, "train/adv_max": 0.4539848938103645, "train/adv_mean": 0.002036580687267668, "train/adv_min": -0.33378334160773987, "train/adv_std": 0.027540504583908665, "train/cont_avg": 0.9984816028225807, "train/cont_loss_mean": 0.0011735932727164724, "train/cont_loss_std": 0.025718169851490762, "train/cont_neg_acc": 0.7926553689827354, "train/cont_neg_loss": 0.4397381900321846, "train/cont_pos_acc": 0.9998294964913399, "train/cont_pos_loss": 0.0004960203453903535, "train/cont_pred": 0.9984718434272274, "train/cont_rate": 0.9984816028225807, "train/dyn_loss_mean": 2.854724334901379, "train/dyn_loss_std": 5.295496651434129, "train/extr_critic_critic_opt_grad_norm": 1.272489103194206, "train/extr_critic_critic_opt_grad_steps": 31200.0, "train/extr_critic_critic_opt_loss": 1.4825872359737273, "train/extr_critic_mag": 272.7960425592238, "train/extr_critic_max": 272.7960425592238, "train/extr_critic_mean": 100.66549635856383, "train/extr_critic_min": 0.2935041758321947, "train/extr_critic_std": 64.45495204310264, "train/extr_return_normed_mag": 1.2758352429636064, "train/extr_return_normed_max": 1.2758352429636064, "train/extr_return_normed_mean": 0.4418737699908595, "train/extr_return_normed_min": -0.025462551919683333, "train/extr_return_normed_std": 0.2993212781606182, "train/extr_return_rate": 0.9632796191400097, "train/extr_return_raw_mag": 281.1260687058972, "train/extr_return_raw_max": 281.1260687058972, "train/extr_return_raw_mean": 101.10479810160976, "train/extr_return_raw_min": 0.21569908236063295, "train/extr_return_raw_std": 64.61589407151745, "train/extr_reward_mag": 28.918861813699046, "train/extr_reward_max": 28.918861813699046, "train/extr_reward_mean": 0.6296413348567101, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.3455566375486314, "train/image_loss_mean": 1.5571562482464698, "train/image_loss_std": 0.9922097575279974, "train/model_loss_mean": 3.3288561344146728, "train/model_loss_std": 3.8305604488618914, "train/model_opt_grad_norm": 12.530504131317139, "train/model_opt_grad_steps": 31200.0, "train/model_opt_loss": 3.3288561344146728, "train/policy_entropy_mag": 2.6444511890411375, "train/policy_entropy_max": 2.6444511890411375, "train/policy_entropy_mean": 0.9814525388902233, "train/policy_entropy_min": 0.08020386090201716, "train/policy_entropy_std": 0.7433158909120867, "train/policy_logprob_mag": 7.495388846243581, "train/policy_logprob_max": -0.009491102199160283, "train/policy_logprob_mean": -0.981908824366908, "train/policy_logprob_min": -7.495388846243581, "train/policy_logprob_std": 1.3189901644183744, "train/policy_randomness_mag": 0.9149173402017162, "train/policy_randomness_max": 0.9149173402017162, "train/policy_randomness_mean": 0.33955928125689105, "train/policy_randomness_min": 0.027748632058501244, "train/policy_randomness_std": 0.25716965198516845, "train/post_ent_mag": 52.565306411250944, "train/post_ent_max": 52.565306411250944, "train/post_ent_mean": 41.475318490305256, "train/post_ent_min": 20.376157249942903, "train/post_ent_std": 3.739040860822124, "train/prior_ent_mag": 74.25439822289252, "train/prior_ent_max": 74.25439822289252, "train/prior_ent_mean": 44.34973587528352, "train/prior_ent_min": 25.01896156803254, "train/prior_ent_std": 5.5161296383027105, "train/rep_loss_mean": 2.854724334901379, "train/rep_loss_std": 5.295496651434129, "train/reward_avg": 0.771484375, "train/reward_loss_mean": 0.05769170023981602, "train/reward_loss_std": 0.2433550591911039, "train/reward_max_data": 59.483870967741936, "train/reward_max_pred": 25.46624168888215, "train/reward_neg_acc": 0.9723893296334052, "train/reward_neg_loss": 0.008149429700607735, "train/reward_pos_acc": 0.9925624951239556, "train/reward_pos_loss": 0.7009414434432983, "train/reward_pred": 0.6804584027298035, "train/reward_rate": 0.07207661290322581, "train_stats/mean_log_entropy": 0.7326859434445699, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.70836460206192e-05, "report/cont_loss_std": 0.0005987685290165246, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0010467399843037128, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.510779788484797e-05, "report/cont_pred": 0.9980140924453735, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.846109390258789, "report/dyn_loss_std": 4.992932319641113, "report/image_loss_mean": 1.1730597019195557, "report/image_loss_std": 0.7688213586807251, "report/model_loss_mean": 2.9599051475524902, "report/model_loss_std": 3.5227935314178467, "report/post_ent_mag": 50.02608871459961, "report/post_ent_max": 50.02608871459961, "report/post_ent_mean": 41.60914993286133, "report/post_ent_min": 16.958377838134766, "report/post_ent_std": 3.902675151824951, "report/prior_ent_mag": 74.8958740234375, "report/prior_ent_max": 74.8958740234375, "report/prior_ent_mean": 44.66780090332031, "report/prior_ent_min": 21.457317352294922, "report/prior_ent_std": 5.805934429168701, "report/rep_loss_mean": 2.846109390258789, "report/rep_loss_std": 4.992932319641113, "report/reward_avg": 1.123046875, "report/reward_loss_mean": 0.0791424885392189, "report/reward_loss_std": 0.24293093383312225, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.858360290527344, "report/reward_neg_acc": 0.9560922384262085, "report/reward_neg_loss": 0.009234755299985409, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6427348852157593, "report/reward_pred": 1.0391647815704346, "report/reward_rate": 0.1103515625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.6812931537278928e-06, "eval/cont_loss_std": 2.9772958441753872e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.6812931537278928e-06, "eval/cont_pred": 0.9999973773956299, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.6481294631958, "eval/dyn_loss_std": 9.2671537399292, "eval/image_loss_mean": 5.674938201904297, "eval/image_loss_std": 3.0607850551605225, "eval/model_loss_mean": 15.32244873046875, "eval/model_loss_std": 8.069182395935059, "eval/post_ent_mag": 53.81981658935547, "eval/post_ent_max": 53.81981658935547, "eval/post_ent_mean": 42.335243225097656, "eval/post_ent_min": 31.1182804107666, "eval/post_ent_std": 3.742635488510132, "eval/prior_ent_mag": 74.8958740234375, "eval/prior_ent_max": 74.8958740234375, "eval/prior_ent_mean": 47.7592658996582, "eval/prior_ent_min": 35.9605712890625, "eval/prior_ent_std": 5.293410778045654, "eval/rep_loss_mean": 15.6481294631958, "eval/rep_loss_std": 9.2671537399292, "eval/reward_avg": 0.185546875, "eval/reward_loss_mean": 0.2586313486099243, "eval/reward_loss_std": 1.8683369159698486, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002248764038086, "eval/reward_neg_acc": 0.9502487778663635, "eval/reward_neg_loss": 0.04043416306376457, "eval/reward_pos_acc": 0.10526315867900848, "eval/reward_pos_loss": 11.800114631652832, "eval/reward_pred": 0.08086559921503067, "eval/reward_rate": 0.0185546875, "replay/size": 64502.0, "replay/inserts": 1544.0, "replay/samples": 24704.0, "replay/insert_wait_avg": 4.995672196304242e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3321194160787553e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.130866050720215e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.03031754493713, "timer/replay._sample_count": 24704.0, "timer/replay._sample_total": 379.70428586006165, "timer/replay._sample_frac": 1.2655530579945187, "timer/replay._sample_avg": 0.015370154058454568, "timer/replay._sample_min": 0.0004634857177734375, "timer/replay._sample_max": 0.08197975158691406, "timer/env.step_count": 1544.0, "timer/env.step_total": 6.809361457824707, "timer/env.step_frac": 0.022695577945401578, "timer/env.step_avg": 0.004410208198072997, "timer/env.step_min": 0.0024433135986328125, "timer/env.step_max": 0.033391714096069336, "timer/agent.policy_count": 1544.0, "timer/agent.policy_total": 110.91130304336548, "timer/agent.policy_frac": 0.36966698549307003, "timer/agent.policy_avg": 0.0718337454944077, "timer/agent.policy_min": 0.0029969215393066406, "timer/agent.policy_max": 0.1483139991760254, "timer/dataset_train_count": 1544.0, "timer/dataset_train_total": 0.1583881378173828, "timer/dataset_train_frac": 0.0005279071098995194, "timer/dataset_train_avg": 0.0001025829908143671, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.0006816387176513672, "timer/agent.train_count": 1544.0, "timer/agent.train_total": 180.92310690879822, "timer/agent.train_frac": 0.6030160831386662, "timer/agent.train_avg": 0.11717817804973978, "timer/agent.train_min": 0.10389566421508789, "timer/agent.train_max": 0.3238086700439453, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2597811222076416, "timer/agent.report_frac": 0.0008658495725810536, "timer/agent.report_avg": 0.1298905611038208, "timer/agent.report_min": 0.10155081748962402, "timer/agent.report_max": 0.15823030471801758, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.699562072753906e-05, "timer/dataset_eval_frac": 2.2329616978625759e-07, "timer/dataset_eval_avg": 6.699562072753906e-05, "timer/dataset_eval_min": 6.699562072753906e-05, "timer/dataset_eval_max": 6.699562072753906e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16249942779541016, "timer/agent.save_frac": 0.0005416100250304597, "timer/agent.save_avg": 0.16249942779541016, "timer/agent.save_min": 0.16249942779541016, "timer/agent.save_max": 0.16249942779541016, "fps": 20.583415861208888}
{"step": 132880, "episode/length": 791.0, "episode/score": 540.0, "episode/reward_rate": 0.06691919191919192}
{"step": 135688, "episode/length": 701.0, "episode/score": 660.0, "episode/reward_rate": 0.09259259259259259}
{"step": 137108, "episode/length": 354.0, "episode/score": 410.0, "episode/reward_rate": 0.11267605633802817}
{"step": 138476, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.253545587713068, "train/action_min": 0.0, "train/action_std": 4.023073442570575, "train/actor_opt_grad_norm": 0.005841610653858099, "train/actor_opt_grad_steps": 32745.0, "train/actor_opt_loss": 0.0008249666383113884, "train/adv_mag": 0.46499083791073265, "train/adv_max": 0.44115577115641014, "train/adv_mean": 0.0020911609316463945, "train/adv_min": -0.330321637453971, "train/adv_std": 0.026343566909819455, "train/cont_avg": 0.9983512581168831, "train/cont_loss_mean": 0.0012391528602447638, "train/cont_loss_std": 0.02813681289488501, "train/cont_neg_acc": 0.8307692332909657, "train/cont_neg_loss": 0.454243447848533, "train/cont_pos_acc": 0.9998474899050477, "train/cont_pos_loss": 0.0004228666004738951, "train/cont_pred": 0.9984095773913644, "train/cont_rate": 0.9983512581168831, "train/dyn_loss_mean": 2.902938237437954, "train/dyn_loss_std": 5.377415285482035, "train/extr_critic_critic_opt_grad_norm": 1.2706162960498364, "train/extr_critic_critic_opt_grad_steps": 32745.0, "train/extr_critic_critic_opt_loss": 1.4854537891103077, "train/extr_critic_mag": 277.4770505830839, "train/extr_critic_max": 277.4770505830839, "train/extr_critic_mean": 100.05089722670517, "train/extr_critic_min": 0.4093895244908023, "train/extr_critic_std": 65.6388806677484, "train/extr_return_normed_mag": 1.2672652726049547, "train/extr_return_normed_max": 1.2672652726049547, "train/extr_return_normed_mean": 0.4315054217329273, "train/extr_return_normed_min": -0.02465493236320674, "train/extr_return_normed_std": 0.2997062695877893, "train/extr_return_rate": 0.9570211520442715, "train/extr_return_raw_mag": 283.8694751293628, "train/extr_return_raw_max": 283.8694751293628, "train/extr_return_raw_mean": 100.50954149915026, "train/extr_return_raw_min": 0.41878235356749166, "train/extr_return_raw_std": 65.76625982507483, "train/extr_reward_mag": 27.95065840807828, "train/extr_reward_max": 27.95065840807828, "train/extr_reward_mean": 0.6100734270044735, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.3171015312145284, "train/image_loss_mean": 1.5267380127659091, "train/image_loss_std": 1.0139171047644182, "train/model_loss_mean": 3.3242407897850135, "train/model_loss_std": 3.903926451484878, "train/model_opt_grad_norm": 12.44878702968746, "train/model_opt_grad_steps": 32745.0, "train/model_opt_loss": 3.3242407897850135, "train/policy_entropy_mag": 2.6375780152035997, "train/policy_entropy_max": 2.6375780152035997, "train/policy_entropy_mean": 0.9722708053403086, "train/policy_entropy_min": 0.08020159873095425, "train/policy_entropy_std": 0.7447454186228962, "train/policy_logprob_mag": 7.495363829971908, "train/policy_logprob_max": -0.009490815541622314, "train/policy_logprob_mean": -0.972735361232386, "train/policy_logprob_min": -7.495363829971908, "train/policy_logprob_std": 1.3187416582912594, "train/policy_randomness_mag": 0.9125393853559123, "train/policy_randomness_max": 0.9125393853559123, "train/policy_randomness_mean": 0.3363826211977315, "train/policy_randomness_min": 0.027747849377428555, "train/policy_randomness_std": 0.25766423586514087, "train/post_ent_mag": 53.76154389319482, "train/post_ent_max": 53.76154389319482, "train/post_ent_mean": 41.682514661318294, "train/post_ent_min": 19.911259137190783, "train/post_ent_std": 3.791001319885254, "train/prior_ent_mag": 74.99400611976525, "train/prior_ent_max": 74.99400611976525, "train/prior_ent_mean": 44.59579551994027, "train/prior_ent_min": 25.07201605957824, "train/prior_ent_std": 5.62641995603388, "train/rep_loss_mean": 2.902938237437954, "train/rep_loss_std": 5.377415285482035, "train/reward_avg": 0.7059785917207793, "train/reward_loss_mean": 0.05450069724110427, "train/reward_loss_std": 0.23419576646252113, "train/reward_max_data": 30.584415584415584, "train/reward_max_pred": 21.326210356377935, "train/reward_neg_acc": 0.9725251085572428, "train/reward_neg_loss": 0.007715229298798488, "train/reward_pos_acc": 0.992154420196236, "train/reward_pos_loss": 0.6945314658926679, "train/reward_pred": 0.6437846453158886, "train/reward_rate": 0.06839742288961038, "train_stats/mean_log_entropy": 1.023723840713501, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.002611697418615222, "report/cont_loss_std": 0.05004867538809776, "report/cont_neg_acc": 0.6666666865348816, "report/cont_neg_loss": 0.7011103630065918, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0005593021051026881, "report/cont_pred": 0.9978218078613281, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.1487159729003906, "report/dyn_loss_std": 5.647660255432129, "report/image_loss_mean": 1.6045818328857422, "report/image_loss_std": 0.887968897819519, "report/model_loss_mean": 3.5693702697753906, "report/model_loss_std": 3.930091619491577, "report/post_ent_mag": 55.345970153808594, "report/post_ent_max": 55.345970153808594, "report/post_ent_mean": 42.4047966003418, "report/post_ent_min": 24.097017288208008, "report/post_ent_std": 4.2064900398254395, "report/prior_ent_mag": 75.08049011230469, "report/prior_ent_max": 75.08049011230469, "report/prior_ent_mean": 45.875370025634766, "report/prior_ent_min": 30.729948043823242, "report/prior_ent_std": 5.8477301597595215, "report/rep_loss_mean": 3.1487159729003906, "report/rep_loss_std": 5.647660255432129, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.07294704765081406, "report/reward_loss_std": 0.3079048693180084, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008378028869629, "report/reward_neg_acc": 0.9465968608856201, "report/reward_neg_loss": 0.01580827683210373, "report/reward_pos_acc": 0.9855072498321533, "report/reward_pos_loss": 0.8637807965278625, "report/reward_pred": 0.5765060782432556, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0055088018998503685, "eval/cont_loss_std": 0.14700183272361755, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.807392120361328, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.5664734494057484e-05, "eval/cont_pred": 0.9996121525764465, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 17.26445770263672, "eval/dyn_loss_std": 10.285057067871094, "eval/image_loss_mean": 6.210513591766357, "eval/image_loss_std": 3.79298996925354, "eval/model_loss_mean": 17.03158187866211, "eval/model_loss_std": 9.399828910827637, "eval/post_ent_mag": 54.893096923828125, "eval/post_ent_max": 54.893096923828125, "eval/post_ent_mean": 41.248138427734375, "eval/post_ent_min": 29.586137771606445, "eval/post_ent_std": 4.0027265548706055, "eval/prior_ent_mag": 75.08049011230469, "eval/prior_ent_max": 75.08049011230469, "eval/prior_ent_mean": 47.49079895019531, "eval/prior_ent_min": 34.43427658081055, "eval/prior_ent_std": 5.631468772888184, "eval/rep_loss_mean": 17.26445770263672, "eval/rep_loss_std": 10.285057067871094, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.4568847417831421, "eval/reward_loss_std": 2.4700560569763184, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.959668159484863, "eval/reward_neg_acc": 0.9393325448036194, "eval/reward_neg_loss": 0.046182695776224136, "eval/reward_pos_acc": 0.11428571492433548, "eval/reward_pos_loss": 12.062150955200195, "eval/reward_pred": 0.13607531785964966, "eval/reward_rate": 0.0341796875, "replay/size": 66050.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.904368743107917e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3272814664421771e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9669532775878906e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11665892601013, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 377.74048042297363, "timer/replay._sample_frac": 1.258645493971398, "timer/replay._sample_avg": 0.015251149887878457, "timer/replay._sample_min": 0.00047969818115234375, "timer/replay._sample_max": 0.04393744468688965, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.789769411087036, "timer/env.step_frac": 0.0226237671556945, "timer/env.step_avg": 0.004386155950314623, "timer/env.step_min": 0.002286195755004883, "timer/env.step_max": 0.029295682907104492, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.89190459251404, "timer/agent.policy_frac": 0.36949599862049975, "timer/agent.policy_avg": 0.07163559728198582, "timer/agent.policy_min": 0.0027523040771484375, "timer/agent.policy_max": 0.08602452278137207, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1524055004119873, "timer/dataset_train_frac": 0.0005078208619187678, "timer/dataset_train_avg": 9.845316564081868e-05, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002288818359375, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 181.0636854171753, "timer/agent.train_frac": 0.603311012674622, "timer/agent.train_avg": 0.11696620504985485, "timer/agent.train_min": 0.10359621047973633, "timer/agent.train_max": 0.20122122764587402, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2541544437408447, "timer/agent.report_frac": 0.0008468521695875043, "timer/agent.report_avg": 0.12707722187042236, "timer/agent.report_min": 0.10040903091430664, "timer/agent.report_max": 0.15374541282653809, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.078315734863281e-05, "timer/dataset_eval_frac": 1.6921139109826202e-07, "timer/dataset_eval_avg": 5.078315734863281e-05, "timer/dataset_eval_min": 5.078315734863281e-05, "timer/dataset_eval_max": 5.078315734863281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.630662817735605}
{"step": 138980, "episode/length": 467.0, "episode/score": 550.0, "episode/reward_rate": 0.11538461538461539}
{"step": 140648, "episode/length": 416.0, "episode/score": 460.0, "episode/reward_rate": 0.1079136690647482}
{"step": 142772, "episode/length": 530.0, "episode/score": 470.0, "episode/reward_rate": 0.08662900188323917}
{"step": 144660, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.101372700352822, "train/action_min": 0.0, "train/action_std": 4.084750363134568, "train/actor_opt_grad_norm": 0.006188443106328768, "train/actor_opt_grad_steps": 34290.0, "train/actor_opt_loss": 0.0007867188527099291, "train/adv_mag": 0.4608957932841393, "train/adv_max": 0.4393308446291954, "train/adv_mean": 0.002058272637500082, "train/adv_min": -0.3201532728249027, "train/adv_std": 0.026955895113848872, "train/cont_avg": 0.9982484879032258, "train/cont_loss_mean": 0.0014217436606215063, "train/cont_loss_std": 0.032442007361848275, "train/cont_neg_acc": 0.7842105281980414, "train/cont_neg_loss": 0.5589043697206549, "train/cont_pos_acc": 0.9998104587677986, "train/cont_pos_loss": 0.0005673717943446102, "train/cont_pred": 0.9982044842935378, "train/cont_rate": 0.9982484879032258, "train/dyn_loss_mean": 2.8318537896679294, "train/dyn_loss_std": 5.375983690446423, "train/extr_critic_critic_opt_grad_norm": 1.3061947276515344, "train/extr_critic_critic_opt_grad_steps": 34290.0, "train/extr_critic_critic_opt_loss": 1.491704450884173, "train/extr_critic_mag": 283.77042088662427, "train/extr_critic_max": 283.77042088662427, "train/extr_critic_mean": 103.64731410857169, "train/extr_critic_min": 0.2611399496755292, "train/extr_critic_std": 67.98686813846712, "train/extr_return_normed_mag": 1.2966785761617845, "train/extr_return_normed_max": 1.2966785761617845, "train/extr_return_normed_mean": 0.4388189519605329, "train/extr_return_normed_min": -0.025899012727783093, "train/extr_return_normed_std": 0.30491949146793734, "train/extr_return_rate": 0.9529486367779393, "train/extr_return_raw_mag": 295.8618899437689, "train/extr_return_raw_max": 295.8618899437689, "train/extr_return_raw_mean": 104.10723620999244, "train/extr_return_raw_min": 0.25741261857967346, "train/extr_return_raw_std": 68.15767270980342, "train/extr_reward_mag": 21.585134561600224, "train/extr_reward_max": 21.585134561600224, "train/extr_reward_mean": 0.6618871648465433, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.4313265023692963, "train/image_loss_mean": 1.475098692986273, "train/image_loss_std": 0.972722501139487, "train/model_loss_mean": 3.2331986934907975, "train/model_loss_std": 3.865704551819832, "train/model_opt_grad_norm": 12.080287954884191, "train/model_opt_grad_steps": 34290.0, "train/model_opt_loss": 3.2331986934907975, "train/policy_entropy_mag": 2.6306796104677264, "train/policy_entropy_max": 2.6306796104677264, "train/policy_entropy_mean": 0.9687196546985257, "train/policy_entropy_min": 0.08019956326292407, "train/policy_entropy_std": 0.7359419761165495, "train/policy_logprob_mag": 7.495408759578582, "train/policy_logprob_max": -0.0094905445592538, "train/policy_logprob_mean": -0.9685972290654337, "train/policy_logprob_min": -7.495408759578582, "train/policy_logprob_std": 1.3127342401012299, "train/policy_randomness_mag": 0.9101527014086324, "train/policy_randomness_max": 0.9101527014086324, "train/policy_randomness_mean": 0.3351540076155816, "train/policy_randomness_min": 0.02774714518698954, "train/policy_randomness_std": 0.2546184527297174, "train/post_ent_mag": 54.3542855785739, "train/post_ent_max": 54.3542855785739, "train/post_ent_mean": 41.847442454676475, "train/post_ent_min": 19.742167595894106, "train/post_ent_std": 3.8389818652983636, "train/prior_ent_mag": 75.72846246534779, "train/prior_ent_max": 75.72846246534779, "train/prior_ent_mean": 44.70202031289377, "train/prior_ent_min": 23.86923386358446, "train/prior_ent_std": 5.700668110386018, "train/rep_loss_mean": 2.8318537896679294, "train/rep_loss_std": 5.375983690446423, "train/reward_avg": 0.7651839717741935, "train/reward_loss_mean": 0.05756599505341822, "train/reward_loss_std": 0.2410095259066551, "train/reward_max_data": 33.483870967741936, "train/reward_max_pred": 17.457439570273124, "train/reward_neg_acc": 0.973856306845142, "train/reward_neg_loss": 0.00790123017354598, "train/reward_pos_acc": 0.9918951426782916, "train/reward_pos_loss": 0.6810187993511077, "train/reward_pred": 0.6989234520543006, "train/reward_rate": 0.07402973790322581, "train_stats/mean_log_entropy": 0.9135110974311829, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0005662040784955025, "report/cont_loss_std": 0.014066946692764759, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.020214635878801346, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0005277530872263014, "report/cont_pred": 0.997644305229187, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7991909980773926, "report/dyn_loss_std": 5.689653396606445, "report/image_loss_mean": 1.3737072944641113, "report/image_loss_std": 0.9868398904800415, "report/model_loss_mean": 3.104033946990967, "report/model_loss_std": 4.041375637054443, "report/post_ent_mag": 54.86323928833008, "report/post_ent_max": 54.86323928833008, "report/post_ent_mean": 41.27466583251953, "report/post_ent_min": 20.96014404296875, "report/post_ent_std": 3.788886547088623, "report/prior_ent_mag": 75.72279357910156, "report/prior_ent_max": 75.72279357910156, "report/prior_ent_mean": 44.08207702636719, "report/prior_ent_min": 27.895477294921875, "report/prior_ent_std": 5.630680561065674, "report/rep_loss_mean": 2.7991909980773926, "report/rep_loss_std": 5.689653396606445, "report/reward_avg": 0.732421875, "report/reward_loss_mean": 0.050245702266693115, "report/reward_loss_std": 0.1978979855775833, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.009306907653809, "report/reward_neg_acc": 0.9841939806938171, "report/reward_neg_loss": 0.0025505207013338804, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6537486910820007, "report/reward_pred": 0.6690027713775635, "report/reward_rate": 0.0732421875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.9483109099383e-06, "eval/cont_loss_std": 3.743654451682232e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.9483109099383e-06, "eval/cont_pred": 0.9999980926513672, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.66231918334961, "eval/dyn_loss_std": 9.612076759338379, "eval/image_loss_mean": 5.575239181518555, "eval/image_loss_std": 2.9901816844940186, "eval/model_loss_mean": 15.947408676147461, "eval/model_loss_std": 8.251317977905273, "eval/post_ent_mag": 54.96753692626953, "eval/post_ent_max": 54.96753692626953, "eval/post_ent_mean": 42.21531677246094, "eval/post_ent_min": 30.351150512695312, "eval/post_ent_std": 4.148072719573975, "eval/prior_ent_mag": 75.72279357910156, "eval/prior_ent_max": 75.72279357910156, "eval/prior_ent_mean": 47.55570602416992, "eval/prior_ent_min": 34.59188461303711, "eval/prior_ent_std": 4.771297931671143, "eval/rep_loss_mean": 16.66231918334961, "eval/rep_loss_std": 9.612076759338379, "eval/reward_avg": 0.234375, "eval/reward_loss_mean": 0.37477636337280273, "eval/reward_loss_std": 2.271641254425049, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.979799270629883, "eval/reward_neg_acc": 0.9530000686645508, "eval/reward_neg_loss": 0.05012182146310806, "eval/reward_pos_acc": 0.0416666679084301, "eval/reward_pos_loss": 13.90204906463623, "eval/reward_pred": 0.10723023116588593, "eval/reward_rate": 0.0234375, "replay/size": 67596.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.895600125212873e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.329528637721961e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7881393432617188e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9815902709961, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 378.9828248023987, "timer/replay._sample_frac": 1.2633536093332753, "timer/replay._sample_avg": 0.015321103848738627, "timer/replay._sample_min": 0.00044417381286621094, "timer/replay._sample_max": 0.052165985107421875, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.82049822807312, "timer/env.step_frac": 0.02273638932946401, "timer/env.step_avg": 0.004411706486463855, "timer/env.step_min": 0.0024461746215820312, "timer/env.step_max": 0.026941299438476562, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.44406652450562, "timer/agent.policy_frac": 0.36816948141628664, "timer/agent.policy_avg": 0.07143859412969315, "timer/agent.policy_min": 0.0024390220642089844, "timer/agent.policy_max": 0.08733558654785156, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15094876289367676, "timer/dataset_train_frac": 0.0005031934218273638, "timer/dataset_train_avg": 9.7638268365897e-05, "timer/dataset_train_min": 5.793571472167969e-05, "timer/dataset_train_max": 0.00020265579223632812, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.35825371742249, "timer/agent.train_frac": 0.6045646119603134, "timer/agent.train_avg": 0.11730805544464586, "timer/agent.train_min": 0.10405588150024414, "timer/agent.train_max": 0.20209693908691406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26145172119140625, "timer/agent.report_frac": 0.0008715592212015981, "timer/agent.report_avg": 0.13072586059570312, "timer/agent.report_min": 0.09860348701477051, "timer/agent.report_max": 0.16284823417663574, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.222724914550781e-05, "timer/dataset_eval_frac": 2.0743689334166547e-07, "timer/dataset_eval_avg": 6.222724914550781e-05, "timer/dataset_eval_min": 6.222724914550781e-05, "timer/dataset_eval_max": 6.222724914550781e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61345325031105}
{"step": 145040, "episode/length": 566.0, "episode/score": 480.0, "episode/reward_rate": 0.08465608465608465}
{"step": 147996, "episode/length": 738.0, "episode/score": 1090.0, "episode/reward_rate": 0.07983761840324763}
{"step": 149504, "episode/length": 376.0, "episode/score": 480.0, "episode/reward_rate": 0.1246684350132626}
{"step": 150836, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.090598366477273, "train/action_min": 0.0, "train/action_std": 3.957988440216362, "train/actor_opt_grad_norm": 0.005733909599434633, "train/actor_opt_grad_steps": 35835.0, "train/actor_opt_loss": 0.0007622742333730705, "train/adv_mag": 0.4719820484131962, "train/adv_max": 0.449119527328324, "train/adv_mean": 0.0021033672197848896, "train/adv_min": -0.32637341920431556, "train/adv_std": 0.02675382559514278, "train/cont_avg": 0.9983829646915584, "train/cont_loss_mean": 0.0016213779980962027, "train/cont_loss_std": 0.03529520502656379, "train/cont_neg_acc": 0.8627906989219577, "train/cont_neg_loss": 0.44590520684485724, "train/cont_pos_acc": 0.9996568541248123, "train/cont_pos_loss": 0.0008623923901897395, "train/cont_pred": 0.9981899753019408, "train/cont_rate": 0.9983829646915584, "train/dyn_loss_mean": 2.8584377579874807, "train/dyn_loss_std": 5.445073072012368, "train/extr_critic_critic_opt_grad_norm": 1.2885044902176053, "train/extr_critic_critic_opt_grad_steps": 35835.0, "train/extr_critic_critic_opt_loss": 1.4945947094397112, "train/extr_critic_mag": 284.6663322944146, "train/extr_critic_max": 284.6663322944146, "train/extr_critic_mean": 103.94973408092152, "train/extr_critic_min": 0.4368610591083378, "train/extr_critic_std": 68.4540909606141, "train/extr_return_normed_mag": 1.2923841155194618, "train/extr_return_normed_max": 1.2923841155194618, "train/extr_return_normed_mean": 0.43740838224237616, "train/extr_return_normed_min": -0.02324681131731622, "train/extr_return_normed_std": 0.3036596667650458, "train/extr_return_rate": 0.958660591732372, "train/extr_return_raw_mag": 297.47142742206523, "train/extr_return_raw_max": 297.47142742206523, "train/extr_return_raw_mean": 104.42436703768644, "train/extr_return_raw_min": 0.3805793228214486, "train/extr_return_raw_std": 68.58524765906395, "train/extr_reward_mag": 30.202726029730464, "train/extr_reward_max": 30.202726029730464, "train/extr_reward_mean": 0.6700222052924045, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.472975003254878, "train/image_loss_mean": 1.464105502351538, "train/image_loss_std": 0.983208504203078, "train/model_loss_mean": 3.2385946372886756, "train/model_loss_std": 3.918774795222592, "train/model_opt_grad_norm": 12.259082075837371, "train/model_opt_grad_steps": 35835.0, "train/model_opt_loss": 3.2385946372886756, "train/policy_entropy_mag": 2.633697855008113, "train/policy_entropy_max": 2.633697855008113, "train/policy_entropy_mean": 0.9263952478959963, "train/policy_entropy_min": 0.08020153428827013, "train/policy_entropy_std": 0.7223153098837122, "train/policy_logprob_mag": 7.495399564891667, "train/policy_logprob_max": -0.009490800991218972, "train/policy_logprob_mean": -0.927850287456017, "train/policy_logprob_min": -7.495399564891667, "train/policy_logprob_std": 1.3077457462038313, "train/policy_randomness_mag": 0.9111969412921311, "train/policy_randomness_max": 0.9111969412921311, "train/policy_randomness_mean": 0.320510767303504, "train/policy_randomness_min": 0.027747827195018143, "train/policy_randomness_std": 0.24990395195298382, "train/post_ent_mag": 55.09977434827136, "train/post_ent_max": 55.09977434827136, "train/post_ent_mean": 42.12378979967786, "train/post_ent_min": 19.718761623679818, "train/post_ent_std": 3.900086628926265, "train/prior_ent_mag": 76.30406174102387, "train/prior_ent_max": 76.30406174102387, "train/prior_ent_mean": 45.0111790446492, "train/prior_ent_min": 24.091834384125548, "train/prior_ent_std": 5.768489515626586, "train/rep_loss_mean": 2.8584377579874807, "train/rep_loss_std": 5.445073072012368, "train/reward_avg": 0.7721819196428571, "train/reward_loss_mean": 0.05780511409915113, "train/reward_loss_std": 0.2440905629524163, "train/reward_max_data": 43.311688311688314, "train/reward_max_pred": 30.298907131343693, "train/reward_neg_acc": 0.974566758453072, "train/reward_neg_loss": 0.007829990833634873, "train/reward_pos_acc": 0.9911658628420397, "train/reward_pos_loss": 0.6897043899282232, "train/reward_pred": 0.7030321125473294, "train/reward_rate": 0.0733880377435065, "train_stats/mean_log_entropy": 0.8757679065068563, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.427371444151504e-05, "report/cont_loss_std": 0.00015323216211982071, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.427371444151504e-05, "report/cont_pred": 0.9999857544898987, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.738485097885132, "report/dyn_loss_std": 5.267023086547852, "report/image_loss_mean": 1.5299670696258545, "report/image_loss_std": 0.9901942014694214, "report/model_loss_mean": 3.2184479236602783, "report/model_loss_std": 3.820162296295166, "report/post_ent_mag": 53.58860778808594, "report/post_ent_max": 53.58860778808594, "report/post_ent_mean": 42.85139083862305, "report/post_ent_min": 22.836383819580078, "report/post_ent_std": 3.6816937923431396, "report/prior_ent_mag": 76.36753845214844, "report/prior_ent_max": 76.36753845214844, "report/prior_ent_mean": 45.76319885253906, "report/prior_ent_min": 25.923133850097656, "report/prior_ent_std": 5.302208423614502, "report/rep_loss_mean": 2.738485097885132, "report/rep_loss_std": 5.267023086547852, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.045375481247901917, "report/reward_loss_std": 0.18883171677589417, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.017817497253418, "report/reward_neg_acc": 0.9801047444343567, "report/reward_neg_loss": 0.003395936917513609, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.626396656036377, "report/reward_pred": 0.6362543106079102, "report/reward_rate": 0.0673828125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.4350724768519285e-06, "eval/cont_loss_std": 8.528078069502953e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4350724768519285e-06, "eval/cont_pred": 0.9999986290931702, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 17.153841018676758, "eval/dyn_loss_std": 9.122873306274414, "eval/image_loss_mean": 5.966325759887695, "eval/image_loss_std": 3.3196725845336914, "eval/model_loss_mean": 16.784503936767578, "eval/model_loss_std": 8.517053604125977, "eval/post_ent_mag": 56.442115783691406, "eval/post_ent_max": 56.442115783691406, "eval/post_ent_mean": 42.715919494628906, "eval/post_ent_min": 29.14358139038086, "eval/post_ent_std": 4.097870349884033, "eval/prior_ent_mag": 76.36753845214844, "eval/prior_ent_max": 76.36753845214844, "eval/prior_ent_mean": 47.71604919433594, "eval/prior_ent_min": 39.990631103515625, "eval/prior_ent_std": 4.779541969299316, "eval/rep_loss_mean": 17.153841018676758, "eval/rep_loss_std": 9.122873306274414, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.5258719325065613, "eval/reward_loss_std": 2.7499914169311523, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.995244026184082, "eval/reward_neg_acc": 0.9614994525909424, "eval/reward_neg_loss": 0.03401467576622963, "eval/reward_pos_acc": 0.027027025818824768, "eval/reward_pos_loss": 13.64649486541748, "eval/reward_pred": 0.07699394226074219, "eval/reward_rate": 0.0361328125, "replay/size": 69140.0, "replay/inserts": 1544.0, "replay/samples": 24704.0, "replay/insert_wait_avg": 4.821027498788784e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2990357499048499e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1457672119140625e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.00039410591125, "timer/replay._sample_count": 24704.0, "timer/replay._sample_total": 370.416131734848, "timer/replay._sample_frac": 1.2347188170828782, "timer/replay._sample_avg": 0.014994176316987047, "timer/replay._sample_min": 0.000457763671875, "timer/replay._sample_max": 0.03123784065246582, "timer/env.step_count": 1544.0, "timer/env.step_total": 6.784079313278198, "timer/env.step_frac": 0.022613568003791246, "timer/env.step_avg": 0.0043938337521231855, "timer/env.step_min": 0.0023031234741210938, "timer/env.step_max": 0.02993488311767578, "timer/agent.policy_count": 1544.0, "timer/agent.policy_total": 110.74288535118103, "timer/agent.policy_frac": 0.36914246623317665, "timer/agent.policy_avg": 0.07172466667822605, "timer/agent.policy_min": 0.0029799938201904297, "timer/agent.policy_max": 0.2940635681152344, "timer/dataset_train_count": 1544.0, "timer/dataset_train_total": 0.14742493629455566, "timer/dataset_train_frac": 0.0004914158087489352, "timer/dataset_train_avg": 9.548247169336506e-05, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.0003609657287597656, "timer/agent.train_count": 1544.0, "timer/agent.train_total": 181.10332584381104, "timer/agent.train_frac": 0.6036769597705091, "timer/agent.train_avg": 0.11729490015790871, "timer/agent.train_min": 0.10301733016967773, "timer/agent.train_max": 0.20433974266052246, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25556516647338867, "timer/agent.report_frac": 0.0008518827691378455, "timer/agent.report_avg": 0.12778258323669434, "timer/agent.report_min": 0.09459185600280762, "timer/agent.report_max": 0.16097331047058105, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.031990051269531e-05, "timer/dataset_eval_frac": 2.0106607090456072e-07, "timer/dataset_eval_avg": 6.031990051269531e-05, "timer/dataset_eval_min": 6.031990051269531e-05, "timer/dataset_eval_max": 6.031990051269531e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09818911552429199, "timer/agent.save_frac": 0.0003272966217825287, "timer/agent.save_avg": 0.09818911552429199, "timer/agent.save_min": 0.09818911552429199, "timer/agent.save_max": 0.09818911552429199, "fps": 20.585589396245826}
{"step": 151716, "episode/length": 552.0, "episode/score": 580.0, "episode/reward_rate": 0.10307414104882459}
{"step": 154620, "episode/length": 725.0, "episode/score": 620.0, "episode/reward_rate": 0.08402203856749312}
{"step": 156980, "episode/length": 589.0, "episode/score": 530.0, "episode/reward_rate": 0.08983050847457627}
{"step": 157024, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.093912235383064, "train/action_min": 0.0, "train/action_std": 4.009219055791055, "train/actor_opt_grad_norm": 0.005828698096616614, "train/actor_opt_grad_steps": 37380.0, "train/actor_opt_loss": 0.0005370382894339385, "train/adv_mag": 0.4658657532545828, "train/adv_max": 0.4418467641838135, "train/adv_mean": 0.0018823353903327745, "train/adv_min": -0.33285433640403134, "train/adv_std": 0.02624595940353409, "train/cont_avg": 0.9983870967741936, "train/cont_loss_mean": 0.0010912335847996064, "train/cont_loss_std": 0.025328847304133945, "train/cont_neg_acc": 0.8288804087930053, "train/cont_neg_loss": 0.4196892226824025, "train/cont_pos_acc": 0.9998294811094961, "train/cont_pos_loss": 0.00045207118072018986, "train/cont_pred": 0.9983777307694958, "train/cont_rate": 0.9983870967741936, "train/dyn_loss_mean": 2.8712588863988078, "train/dyn_loss_std": 5.5205528720732655, "train/extr_critic_critic_opt_grad_norm": 1.2964890207013777, "train/extr_critic_critic_opt_grad_steps": 37380.0, "train/extr_critic_critic_opt_loss": 1.482109598959646, "train/extr_critic_mag": 284.8348646594632, "train/extr_critic_max": 284.8348646594632, "train/extr_critic_mean": 109.37454184255293, "train/extr_critic_min": 0.2606450103944348, "train/extr_critic_std": 68.86329781316942, "train/extr_return_normed_mag": 1.27492211826386, "train/extr_return_normed_max": 1.27492211826386, "train/extr_return_normed_mean": 0.45117384599101157, "train/extr_return_normed_min": -0.026574167958460748, "train/extr_return_normed_std": 0.3014416072637804, "train/extr_return_rate": 0.9593162428948188, "train/extr_return_raw_mag": 298.60706836331275, "train/extr_return_raw_max": 298.60706836331275, "train/extr_return_raw_mean": 109.8060053179341, "train/extr_return_raw_min": 0.30333656311230434, "train/extr_return_raw_std": 69.09140196769468, "train/extr_reward_mag": 29.100610099300262, "train/extr_reward_max": 29.100610099300262, "train/extr_reward_mean": 0.6814233704920738, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.481320378857274, "train/image_loss_mean": 1.4518883766666535, "train/image_loss_std": 0.9806908349837026, "train/model_loss_mean": 3.232378512044107, "train/model_loss_std": 3.963153442259758, "train/model_opt_grad_norm": 11.645374061215309, "train/model_opt_grad_steps": 37380.0, "train/model_opt_loss": 3.232378512044107, "train/policy_entropy_mag": 2.6283556845880325, "train/policy_entropy_max": 2.6283556845880325, "train/policy_entropy_mean": 0.9159988764793642, "train/policy_entropy_min": 0.08020187664416528, "train/policy_entropy_std": 0.7230971040264252, "train/policy_logprob_mag": 7.495404791062878, "train/policy_logprob_max": -0.009490858420969979, "train/policy_logprob_mean": -0.9166724662626943, "train/policy_logprob_min": -7.495404791062878, "train/policy_logprob_std": 1.302581916316863, "train/policy_randomness_mag": 0.9093486801270516, "train/policy_randomness_max": 0.9093486801270516, "train/policy_randomness_mean": 0.31691386795813037, "train/policy_randomness_min": 0.027747945619686958, "train/policy_randomness_std": 0.25017443212770646, "train/post_ent_mag": 55.603471079180316, "train/post_ent_max": 55.603471079180316, "train/post_ent_mean": 42.135946310720136, "train/post_ent_min": 18.06886583143665, "train/post_ent_std": 3.991192500822006, "train/prior_ent_mag": 76.94118263490738, "train/prior_ent_max": 76.94118263490738, "train/prior_ent_mean": 45.020111083984375, "train/prior_ent_min": 22.359743678185247, "train/prior_ent_std": 5.889836935843191, "train/rep_loss_mean": 2.8712588863988078, "train/rep_loss_std": 5.5205528720732655, "train/reward_avg": 0.7638608870967742, "train/reward_loss_mean": 0.05664357675179359, "train/reward_loss_std": 0.23794581082559402, "train/reward_max_data": 43.41935483870968, "train/reward_max_pred": 28.719807206430744, "train/reward_neg_acc": 0.9748091989947903, "train/reward_neg_loss": 0.0075533759539886825, "train/reward_pos_acc": 0.9926227615725609, "train/reward_pos_loss": 0.6817877100360009, "train/reward_pred": 0.7001576633222641, "train/reward_rate": 0.07290196572580646, "train_stats/mean_log_entropy": 0.9992354909578959, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 9.67202868196182e-05, "report/cont_loss_std": 0.001311087398789823, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.020766006782650948, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.65157092246227e-05, "report/cont_pred": 0.9989677667617798, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.954850196838379, "report/dyn_loss_std": 5.422040939331055, "report/image_loss_mean": 1.5400054454803467, "report/image_loss_std": 1.0113636255264282, "report/model_loss_mean": 3.3660192489624023, "report/model_loss_std": 3.8869025707244873, "report/post_ent_mag": 53.6094856262207, "report/post_ent_max": 53.6094856262207, "report/post_ent_mean": 42.469276428222656, "report/post_ent_min": 15.017184257507324, "report/post_ent_std": 3.8715991973876953, "report/prior_ent_mag": 77.06118774414062, "report/prior_ent_max": 77.06118774414062, "report/prior_ent_mean": 45.60839080810547, "report/prior_ent_min": 19.830501556396484, "report/prior_ent_std": 5.632381916046143, "report/rep_loss_mean": 2.954850196838379, "report/rep_loss_std": 5.422040939331055, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.05300680547952652, "report/reward_loss_std": 0.22442741692066193, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008249282836914, "report/reward_neg_acc": 0.9719043374061584, "report/reward_neg_loss": 0.00680177379399538, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7578170299530029, "report/reward_pred": 0.5193926095962524, "report/reward_rate": 0.0615234375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0038806479424238205, "eval/cont_loss_std": 0.12328129261732101, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.946939468383789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.624032276798971e-05, "eval/cont_pred": 0.9999550580978394, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.194360733032227, "eval/dyn_loss_std": 9.631402015686035, "eval/image_loss_mean": 5.970283508300781, "eval/image_loss_std": 3.3251078128814697, "eval/model_loss_mean": 16.067670822143555, "eval/model_loss_std": 8.898336410522461, "eval/post_ent_mag": 56.776817321777344, "eval/post_ent_max": 56.776817321777344, "eval/post_ent_mean": 41.80937194824219, "eval/post_ent_min": 28.097301483154297, "eval/post_ent_std": 4.504852771759033, "eval/prior_ent_mag": 77.06118774414062, "eval/prior_ent_max": 77.06118774414062, "eval/prior_ent_mean": 47.797996520996094, "eval/prior_ent_min": 34.694278717041016, "eval/prior_ent_std": 5.78406286239624, "eval/rep_loss_mean": 16.194360733032227, "eval/rep_loss_std": 9.631402015686035, "eval/reward_avg": 0.234375, "eval/reward_loss_mean": 0.37689071893692017, "eval/reward_loss_std": 2.5739240646362305, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.04055118560791, "eval/reward_neg_acc": 0.968000054359436, "eval/reward_neg_loss": 0.01074768602848053, "eval/reward_pos_acc": 0.0416666679084301, "eval/reward_pos_loss": 15.632850646972656, "eval/reward_pred": 0.03857269138097763, "eval/reward_rate": 0.0234375, "replay/size": 70687.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.960092792375364e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3349302060078558e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.2202730178833008e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1543560028076, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 384.90279626846313, "timer/replay._sample_frac": 1.2823495264045504, "timer/replay._sample_avg": 0.01555037153637941, "timer/replay._sample_min": 0.00047969818115234375, "timer/replay._sample_max": 0.05331563949584961, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.734126567840576, "timer/env.step_frac": 0.022435545022633573, "timer/env.step_avg": 0.004353022991493585, "timer/env.step_min": 0.002445220947265625, "timer/env.step_max": 0.03336381912231445, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.83960819244385, "timer/agent.policy_frac": 0.3692753610792411, "timer/agent.policy_avg": 0.07164809837908458, "timer/agent.policy_min": 0.0029892921447753906, "timer/agent.policy_max": 0.08706378936767578, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15323829650878906, "timer/dataset_train_frac": 0.0005105316429502548, "timer/dataset_train_avg": 9.90551367219063e-05, "timer/dataset_train_min": 5.841255187988281e-05, "timer/dataset_train_max": 0.00024628639221191406, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.19086742401123, "timer/agent.train_frac": 0.6036589634645062, "timer/agent.train_avg": 0.11712402548417016, "timer/agent.train_min": 0.10407686233520508, "timer/agent.train_max": 0.20471525192260742, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25631237030029297, "timer/agent.report_frac": 0.0008539352009200741, "timer/agent.report_avg": 0.12815618515014648, "timer/agent.report_min": 0.09537267684936523, "timer/agent.report_max": 0.16093969345092773, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.817413330078125e-05, "timer/dataset_eval_frac": 1.9381405645912763e-07, "timer/dataset_eval_avg": 5.817413330078125e-05, "timer/dataset_eval_min": 5.817413330078125e-05, "timer/dataset_eval_max": 5.817413330078125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61483714390641}
{"step": 159740, "episode/length": 689.0, "episode/score": 640.0, "episode/reward_rate": 0.09130434782608696}
{"step": 162160, "episode/length": 604.0, "episode/score": 590.0, "episode/reward_rate": 0.09586776859504133}
{"step": 163208, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.06092804939516, "train/action_min": 0.0, "train/action_std": 4.061887007374917, "train/actor_opt_grad_norm": 0.006249014809427242, "train/actor_opt_grad_steps": 38930.0, "train/actor_opt_loss": 0.0005659747466926356, "train/adv_mag": 0.5166959301117928, "train/adv_max": 0.4984888148884619, "train/adv_mean": 0.0016205716537107887, "train/adv_min": -0.3146601084739931, "train/adv_std": 0.0271141026229147, "train/cont_avg": 0.9982673891129032, "train/cont_loss_mean": 0.0012850282791180602, "train/cont_loss_std": 0.029674370223484958, "train/cont_neg_acc": 0.8117424263195558, "train/cont_neg_loss": 0.5755793658518087, "train/cont_pos_acc": 0.9998546242713928, "train/cont_pos_loss": 0.00042641682914050294, "train/cont_pred": 0.998321932361972, "train/cont_rate": 0.9982673891129032, "train/dyn_loss_mean": 2.8693103682610297, "train/dyn_loss_std": 5.5491668824226625, "train/extr_critic_critic_opt_grad_norm": 1.3161420775998023, "train/extr_critic_critic_opt_grad_steps": 38930.0, "train/extr_critic_critic_opt_loss": 1.4834167503541515, "train/extr_critic_mag": 296.0198418401903, "train/extr_critic_max": 296.0198418401903, "train/extr_critic_mean": 107.93765357232863, "train/extr_critic_min": 0.2166049203565044, "train/extr_critic_std": 72.32901052659558, "train/extr_return_normed_mag": 1.2821645279084481, "train/extr_return_normed_max": 1.2821645279084481, "train/extr_return_normed_mean": 0.43779140537784944, "train/extr_return_normed_min": -0.02191468133561073, "train/extr_return_normed_std": 0.30856265867910077, "train/extr_return_rate": 0.9551210168869265, "train/extr_return_raw_mag": 306.4223126811366, "train/extr_return_raw_max": 306.4223126811366, "train/extr_return_raw_mean": 108.31784298804499, "train/extr_return_raw_min": 0.39551531496953457, "train/extr_return_raw_std": 72.44262466430663, "train/extr_reward_mag": 36.97503587045977, "train/extr_reward_max": 36.97503587045977, "train/extr_reward_mean": 0.6876461046357308, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.5745050114970054, "train/image_loss_mean": 1.4211204298080937, "train/image_loss_std": 0.9814898621651434, "train/model_loss_mean": 3.2008999824523925, "train/model_loss_std": 3.981283555492278, "train/model_opt_grad_norm": 12.265282704753261, "train/model_opt_grad_steps": 38930.0, "train/model_opt_loss": 3.2008999824523925, "train/policy_entropy_mag": 2.6437274148387293, "train/policy_entropy_max": 2.6437274148387293, "train/policy_entropy_mean": 0.9256431933372251, "train/policy_entropy_min": 0.08019889588317564, "train/policy_entropy_std": 0.7296868001261065, "train/policy_logprob_mag": 7.495461666968561, "train/policy_logprob_max": -0.009490460758247683, "train/policy_logprob_mean": -0.9257140555689412, "train/policy_logprob_min": -7.495461666968561, "train/policy_logprob_std": 1.3037638633481918, "train/policy_randomness_mag": 0.9146669337826391, "train/policy_randomness_max": 0.9146669337826391, "train/policy_randomness_mean": 0.3202505739465837, "train/policy_randomness_min": 0.02774691432714462, "train/policy_randomness_std": 0.25245431132854956, "train/post_ent_mag": 56.32171913885301, "train/post_ent_max": 56.32171913885301, "train/post_ent_mean": 42.2881578999181, "train/post_ent_min": 17.941667975148846, "train/post_ent_std": 4.026624231953774, "train/prior_ent_mag": 77.3923076506584, "train/prior_ent_max": 77.3923076506584, "train/prior_ent_mean": 45.16798056325605, "train/prior_ent_min": 22.1781345921178, "train/prior_ent_std": 5.940211000750142, "train/rep_loss_mean": 2.8693103682610297, "train/rep_loss_std": 5.5491668824226625, "train/reward_avg": 0.7758946572580645, "train/reward_loss_mean": 0.05690832472135944, "train/reward_loss_std": 0.2341054441467408, "train/reward_max_data": 43.61290322580645, "train/reward_max_pred": 23.651671981811525, "train/reward_neg_acc": 0.9743356981585103, "train/reward_neg_loss": 0.007425925828095886, "train/reward_pos_acc": 0.9926246712284703, "train/reward_pos_loss": 0.677172972309974, "train/reward_pred": 0.7040034951702241, "train/reward_rate": 0.07408644153225806, "train_stats/mean_log_entropy": 1.0234753489494324, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00023183303710538894, "report/cont_loss_std": 0.005002889316529036, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.08653278648853302, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.294663035077974e-05, "report/cont_pred": 0.9981420040130615, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.5529468059539795, "report/dyn_loss_std": 5.0720744132995605, "report/image_loss_mean": 1.1999609470367432, "report/image_loss_std": 0.8264747858047485, "report/model_loss_mean": 2.787971258163452, "report/model_loss_std": 3.5804176330566406, "report/post_ent_mag": 56.67857360839844, "report/post_ent_max": 56.67857360839844, "report/post_ent_mean": 43.3013916015625, "report/post_ent_min": 16.049774169921875, "report/post_ent_std": 4.175996780395508, "report/prior_ent_mag": 77.37614440917969, "report/prior_ent_max": 77.37614440917969, "report/prior_ent_mean": 45.66802215576172, "report/prior_ent_min": 18.386457443237305, "report/prior_ent_std": 5.95622444152832, "report/rep_loss_mean": 2.5529468059539795, "report/rep_loss_std": 5.0720744132995605, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.0560104176402092, "report/reward_loss_std": 0.17769142985343933, "report/reward_max_data": 20.0, "report/reward_max_pred": 10.009233474731445, "report/reward_neg_acc": 0.9722814559936523, "report/reward_neg_loss": 0.00912522990256548, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5673860311508179, "report/reward_pred": 0.8318755030632019, "report/reward_rate": 0.083984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009545428678393364, "eval/cont_loss_std": 0.2153611034154892, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.8606462478637695, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.2082275942666456e-05, "eval/cont_pred": 0.9999319314956665, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 16.332244873046875, "eval/dyn_loss_std": 10.67548942565918, "eval/image_loss_mean": 5.175197124481201, "eval/image_loss_std": 3.3293516635894775, "eval/model_loss_mean": 15.354480743408203, "eval/model_loss_std": 9.080245971679688, "eval/post_ent_mag": 56.589508056640625, "eval/post_ent_max": 56.589508056640625, "eval/post_ent_mean": 43.12568283081055, "eval/post_ent_min": 29.01830291748047, "eval/post_ent_std": 4.1011481285095215, "eval/prior_ent_mag": 77.37614440917969, "eval/prior_ent_max": 77.37614440917969, "eval/prior_ent_mean": 48.530494689941406, "eval/prior_ent_min": 32.859947204589844, "eval/prior_ent_std": 5.756381034851074, "eval/rep_loss_mean": 16.332244873046875, "eval/rep_loss_std": 10.67548942565918, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.37039223313331604, "eval/reward_loss_std": 2.1898462772369385, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999635696411133, "eval/reward_neg_acc": 0.9368104338645935, "eval/reward_neg_loss": 0.07551538199186325, "eval/reward_pos_acc": 0.14814814925193787, "eval/reward_pos_loss": 11.258994102478027, "eval/reward_pred": 0.18130889534950256, "eval/reward_rate": 0.0263671875, "replay/size": 72233.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.873855610560014e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.350617732606915e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.7865171432495117e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1095931529999, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 387.6941421031952, "timer/replay._sample_frac": 1.2918418835933163, "timer/replay._sample_avg": 0.015673275473124, "timer/replay._sample_min": 0.00047206878662109375, "timer/replay._sample_max": 0.04292011260986328, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.736808776855469, "timer/env.step_frac": 0.022447828828387213, "timer/env.step_avg": 0.00435757359434377, "timer/env.step_min": 0.002532482147216797, "timer/env.step_max": 0.023627758026123047, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.6938316822052, "timer/agent.policy_frac": 0.3688446960966423, "timer/agent.policy_avg": 0.07160014985912368, "timer/agent.policy_min": 0.0030527114868164062, "timer/agent.policy_max": 0.09217166900634766, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15510821342468262, "timer/dataset_train_frac": 0.0005168385715201259, "timer/dataset_train_avg": 0.00010032872795904438, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002465248107910156, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.28167009353638, "timer/agent.train_frac": 0.6040515672590198, "timer/agent.train_avg": 0.11725851881858756, "timer/agent.train_min": 0.10397624969482422, "timer/agent.train_max": 0.2067716121673584, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2581799030303955, "timer/agent.report_frac": 0.0008602854054677684, "timer/agent.report_avg": 0.12908995151519775, "timer/agent.report_min": 0.09623861312866211, "timer/agent.report_max": 0.1619412899017334, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.3855438232421875e-05, "timer/dataset_eval_frac": 1.1281025000477716e-07, "timer/dataset_eval_avg": 3.3855438232421875e-05, "timer/dataset_eval_min": 3.3855438232421875e-05, "timer/dataset_eval_max": 3.3855438232421875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.604641644220028}
{"step": 165108, "episode/length": 736.0, "episode/score": 550.0, "episode/reward_rate": 0.07327001356852103}
{"step": 166820, "episode/length": 427.0, "episode/score": 470.0, "episode/reward_rate": 0.10747663551401869}
{"step": 169376, "episode/length": 638.0, "episode/score": 510.0, "episode/reward_rate": 0.0782472613458529}
{"step": 169392, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.220867602856128, "train/action_min": 0.0, "train/action_std": 4.026072864408617, "train/actor_opt_grad_norm": 0.006388138169301795, "train/actor_opt_grad_steps": 40475.0, "train/actor_opt_loss": 0.0005782619179992796, "train/adv_mag": 0.4755314368899767, "train/adv_max": 0.45362807016868095, "train/adv_mean": 0.0017203361862871075, "train/adv_min": -0.3127303558897662, "train/adv_std": 0.02683156765029802, "train/cont_avg": 0.9983956473214286, "train/cont_loss_mean": 0.0010671748031164533, "train/cont_loss_std": 0.024719116486278822, "train/cont_neg_acc": 0.822834647546603, "train/cont_neg_loss": 0.4124132890907835, "train/cont_pos_acc": 0.9998728783873768, "train/cont_pos_loss": 0.0003659776630288375, "train/cont_pred": 0.9984577100772363, "train/cont_rate": 0.9983956473214286, "train/dyn_loss_mean": 2.9577899691346405, "train/dyn_loss_std": 5.594004002484408, "train/extr_critic_critic_opt_grad_norm": 1.3736611438261999, "train/extr_critic_critic_opt_grad_steps": 40475.0, "train/extr_critic_critic_opt_loss": 1.5040311867540532, "train/extr_critic_mag": 291.7922533704089, "train/extr_critic_max": 291.7922533704089, "train/extr_critic_mean": 103.85278260862673, "train/extr_critic_min": 0.18769921497865158, "train/extr_critic_std": 69.47295577804763, "train/extr_return_normed_mag": 1.2864486497718017, "train/extr_return_normed_max": 1.2864486497718017, "train/extr_return_normed_mean": 0.42444987111277394, "train/extr_return_normed_min": -0.026225650973327748, "train/extr_return_normed_std": 0.301310514474844, "train/extr_return_rate": 0.9605570698713327, "train/extr_return_raw_mag": 303.45007353943663, "train/extr_return_raw_max": 303.45007353943663, "train/extr_return_raw_mean": 104.25056298986658, "train/extr_return_raw_min": 0.1059779147281124, "train/extr_return_raw_std": 69.62455997219334, "train/extr_reward_mag": 31.56815496667639, "train/extr_reward_max": 31.56815496667639, "train/extr_reward_mean": 0.6676830013657545, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.4840835286425307, "train/image_loss_mean": 1.444244921207428, "train/image_loss_std": 1.0045079139920023, "train/model_loss_mean": 3.276905299781205, "train/model_loss_std": 4.026217897216995, "train/model_opt_grad_norm": 12.008864343940438, "train/model_opt_grad_steps": 40475.0, "train/model_opt_loss": 3.276905299781205, "train/policy_entropy_mag": 2.642563875619467, "train/policy_entropy_max": 2.642563875619467, "train/policy_entropy_mean": 0.9302494235627063, "train/policy_entropy_min": 0.08020154135180758, "train/policy_entropy_std": 0.7219385667280718, "train/policy_logprob_mag": 7.4954545126332865, "train/policy_logprob_max": -0.009490804783032313, "train/policy_logprob_mean": -0.9306302391863489, "train/policy_logprob_min": -7.4954545126332865, "train/policy_logprob_std": 1.300523215300077, "train/policy_randomness_mag": 0.914264372416905, "train/policy_randomness_max": 0.914264372416905, "train/policy_randomness_mean": 0.3218442200646772, "train/policy_randomness_min": 0.027747829505181933, "train/policy_randomness_std": 0.24977360578713478, "train/post_ent_mag": 56.40472394769842, "train/post_ent_max": 56.40472394769842, "train/post_ent_mean": 42.61375548622825, "train/post_ent_min": 18.423752673260577, "train/post_ent_std": 4.0842421178693895, "train/prior_ent_mag": 77.85950360979352, "train/prior_ent_max": 77.85950360979352, "train/prior_ent_mean": 45.60381512827688, "train/prior_ent_min": 22.67195430978552, "train/prior_ent_std": 5.963577341723751, "train/rep_loss_mean": 2.9577899691346405, "train/rep_loss_std": 5.594004002484408, "train/reward_avg": 0.7641918628246753, "train/reward_loss_mean": 0.05691924086445338, "train/reward_loss_std": 0.23582680716917112, "train/reward_max_data": 40.45454545454545, "train/reward_max_pred": 23.871536867959158, "train/reward_neg_acc": 0.9736393543032856, "train/reward_neg_loss": 0.007462503554831658, "train/reward_pos_acc": 0.9918353178284385, "train/reward_pos_loss": 0.6879039275181758, "train/reward_pred": 0.6927066259569936, "train/reward_rate": 0.07319779829545454, "train_stats/mean_log_entropy": 0.9766516089439392, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0026943369302898645, "report/cont_loss_std": 0.0859917476773262, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 2.7530853748321533, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.782461357739521e-06, "report/cont_pred": 0.999932050704956, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.838510513305664, "report/dyn_loss_std": 5.72493839263916, "report/image_loss_mean": 1.128512978553772, "report/image_loss_std": 0.8912714123725891, "report/model_loss_mean": 2.8816566467285156, "report/model_loss_std": 3.968583345413208, "report/post_ent_mag": 55.928306579589844, "report/post_ent_max": 55.928306579589844, "report/post_ent_mean": 41.33708953857422, "report/post_ent_min": 14.670825958251953, "report/post_ent_std": 4.839064598083496, "report/prior_ent_mag": 78.21094512939453, "report/prior_ent_max": 78.21094512939453, "report/prior_ent_mean": 44.26752471923828, "report/prior_ent_min": 18.92845916748047, "report/prior_ent_std": 6.675241470336914, "report/rep_loss_mean": 2.838510513305664, "report/rep_loss_std": 5.72493839263916, "report/reward_avg": 1.171875, "report/reward_loss_mean": 0.047343332320451736, "report/reward_loss_std": 0.1896478831768036, "report/reward_max_data": 500.0, "report/reward_max_pred": 195.0646209716797, "report/reward_neg_acc": 0.9790356159210205, "report/reward_neg_loss": 0.004774665459990501, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6274933815002441, "report/reward_pred": 0.8432629108428955, "report/reward_rate": 0.068359375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.03173120692372322, "eval/cont_loss_std": 0.590874195098877, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.828851699829102, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.071995812817477e-06, "eval/cont_pred": 0.9999938011169434, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 16.972360610961914, "eval/dyn_loss_std": 9.621631622314453, "eval/image_loss_mean": 5.8771281242370605, "eval/image_loss_std": 3.2366416454315186, "eval/model_loss_mean": 16.470592498779297, "eval/model_loss_std": 8.675719261169434, "eval/post_ent_mag": 55.96123504638672, "eval/post_ent_max": 55.96123504638672, "eval/post_ent_mean": 43.0219612121582, "eval/post_ent_min": 29.220741271972656, "eval/post_ent_std": 4.123873710632324, "eval/prior_ent_mag": 78.21094512939453, "eval/prior_ent_max": 78.21094512939453, "eval/prior_ent_mean": 48.33991241455078, "eval/prior_ent_min": 33.73258590698242, "eval/prior_ent_std": 5.808889389038086, "eval/rep_loss_mean": 16.972360610961914, "eval/rep_loss_std": 9.621631622314453, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.37831613421440125, "eval/reward_loss_std": 2.4172956943511963, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.988729476928711, "eval/reward_neg_acc": 0.95390784740448, "eval/reward_neg_loss": 0.04612047225236893, "eval/reward_pos_acc": 0.19230769574642181, "eval/reward_pos_loss": 13.12951946258545, "eval/reward_pred": 0.11320613324642181, "eval/reward_rate": 0.025390625, "replay/size": 73779.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.933845796375349e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3625791433711873e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1010637283325195e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.99483036994934, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 395.7319211959839, "timer/replay._sample_frac": 1.319129135352009, "timer/replay._sample_avg": 0.015998218030238674, "timer/replay._sample_min": 0.0004119873046875, "timer/replay._sample_max": 0.04852557182312012, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.701735734939575, "timer/env.step_frac": 0.02233950407303716, "timer/env.step_avg": 0.004334887280038535, "timer/env.step_min": 0.002396821975708008, "timer/env.step_max": 0.03276491165161133, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.51481008529663, "timer/agent.policy_frac": 0.3717224391759623, "timer/agent.policy_avg": 0.0721311837550431, "timer/agent.policy_min": 0.002857685089111328, "timer/agent.policy_max": 0.30455803871154785, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.1559617519378662, "timer/dataset_train_frac": 0.0005198814651090367, "timer/dataset_train_avg": 0.00010088082272824463, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00023746490478515625, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.4102065563202, "timer/agent.train_frac": 0.6013777181888131, "timer/agent.train_avg": 0.11669482959658486, "timer/agent.train_min": 0.10338616371154785, "timer/agent.train_max": 0.20125651359558105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25770139694213867, "timer/agent.report_frac": 0.0008590194591831632, "timer/agent.report_avg": 0.12885069847106934, "timer/agent.report_min": 0.09671711921691895, "timer/agent.report_max": 0.16098427772521973, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.14984130859375e-05, "timer/dataset_eval_frac": 1.716643350901427e-07, "timer/dataset_eval_avg": 5.14984130859375e-05, "timer/dataset_eval_min": 5.14984130859375e-05, "timer/dataset_eval_max": 5.14984130859375e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09192180633544922, "timer/agent.save_frac": 0.0003064113012283997, "timer/agent.save_avg": 0.09192180633544922, "timer/agent.save_min": 0.09192180633544922, "timer/agent.save_max": 0.09192180633544922, "fps": 20.61257130337406}
{"step": 171400, "episode/length": 505.0, "episode/score": 500.0, "episode/reward_rate": 0.09881422924901186}
{"step": 173352, "episode/length": 487.0, "episode/score": 560.0, "episode/reward_rate": 0.11270491803278689}
{"step": 175112, "episode/length": 439.0, "episode/score": 500.0, "episode/reward_rate": 0.11136363636363636}
{"step": 175580, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.30004410282258, "train/action_min": 0.0, "train/action_std": 3.978149023363667, "train/actor_opt_grad_norm": 0.005876876675193348, "train/actor_opt_grad_steps": 42020.0, "train/actor_opt_loss": 0.0007070877386438717, "train/adv_mag": 0.4814800008650749, "train/adv_max": 0.4686045680315264, "train/adv_mean": 0.0019934583653417985, "train/adv_min": -0.2940807480004526, "train/adv_std": 0.02513167465165738, "train/cont_avg": 0.9984248991935484, "train/cont_loss_mean": 0.0011685039889837959, "train/cont_loss_std": 0.026266723183075116, "train/cont_neg_acc": 0.8510256427984971, "train/cont_neg_loss": 0.4195477879654321, "train/cont_pos_acc": 0.9998230930297606, "train/cont_pos_loss": 0.0005508028143708544, "train/cont_pred": 0.9983331495715726, "train/cont_rate": 0.9984248991935484, "train/dyn_loss_mean": 2.857098356370003, "train/dyn_loss_std": 5.56474184220837, "train/extr_critic_critic_opt_grad_norm": 1.3087148212617443, "train/extr_critic_critic_opt_grad_steps": 42020.0, "train/extr_critic_critic_opt_loss": 1.4855535568729523, "train/extr_critic_mag": 299.65848034274194, "train/extr_critic_max": 299.65848034274194, "train/extr_critic_mean": 108.77763514364919, "train/extr_critic_min": 0.12818063305270289, "train/extr_critic_std": 72.74016046831684, "train/extr_return_normed_mag": 1.2797835084699816, "train/extr_return_normed_max": 1.2797835084699816, "train/extr_return_normed_mean": 0.4378828281356442, "train/extr_return_normed_min": -0.02204711170446488, "train/extr_return_normed_std": 0.3070979427906775, "train/extr_return_rate": 0.9619048714637757, "train/extr_return_raw_mag": 309.1028717041016, "train/extr_return_raw_max": 309.1028717041016, "train/extr_return_raw_mean": 109.25074349680254, "train/extr_return_raw_min": 0.13998379174304465, "train/extr_return_raw_std": 72.88146231866652, "train/extr_reward_mag": 36.59952953707787, "train/extr_reward_max": 36.59952953707787, "train/extr_reward_mean": 0.7327345169359638, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.6446062495631555, "train/image_loss_mean": 1.3823394367771764, "train/image_loss_std": 0.9853440096301417, "train/model_loss_mean": 3.1561520868732083, "train/model_loss_std": 3.9921842221290835, "train/model_opt_grad_norm": 12.152554739675214, "train/model_opt_grad_steps": 42020.0, "train/model_opt_loss": 3.1561520868732083, "train/policy_entropy_mag": 2.654009545233942, "train/policy_entropy_max": 2.654009545233942, "train/policy_entropy_mean": 0.9092991129044563, "train/policy_entropy_min": 0.08019930230033014, "train/policy_entropy_std": 0.724615220485195, "train/policy_logprob_mag": 7.49546070098877, "train/policy_logprob_max": -0.009490510268557456, "train/policy_logprob_mean": -0.9089658179590779, "train/policy_logprob_min": -7.49546070098877, "train/policy_logprob_std": 1.2925429828705326, "train/policy_randomness_mag": 0.918224307029478, "train/policy_randomness_max": 0.918224307029478, "train/policy_randomness_mean": 0.3145959073497403, "train/policy_randomness_min": 0.02774705499891312, "train/policy_randomness_std": 0.25069966556564455, "train/post_ent_mag": 56.7530511671497, "train/post_ent_max": 56.7530511671497, "train/post_ent_mean": 42.583674867691535, "train/post_ent_min": 17.579330973471365, "train/post_ent_std": 4.130979034977575, "train/prior_ent_mag": 78.30372801749937, "train/prior_ent_max": 78.30372801749937, "train/prior_ent_mean": 45.48665276804278, "train/prior_ent_min": 21.728430434196227, "train/prior_ent_std": 6.006182196832472, "train/rep_loss_mean": 2.857098356370003, "train/rep_loss_std": 5.56474184220837, "train/reward_avg": 0.8249117943548387, "train/reward_loss_mean": 0.05838514850024254, "train/reward_loss_std": 0.23456187555866856, "train/reward_max_data": 47.41935483870968, "train/reward_max_pred": 28.297772118353073, "train/reward_neg_acc": 0.9763830715610134, "train/reward_neg_loss": 0.007022513559598836, "train/reward_pos_acc": 0.9942566917788598, "train/reward_pos_loss": 0.6655012511437939, "train/reward_pred": 0.7559480999746631, "train/reward_rate": 0.07858492943548387, "train_stats/mean_log_entropy": 0.8045886158943176, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0038394390139728785, "report/cont_loss_std": 0.12179398536682129, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 3.8993043899536133, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.155548984068446e-05, "report/cont_pred": 0.9999488592147827, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.679922580718994, "report/dyn_loss_std": 5.421413898468018, "report/image_loss_mean": 1.1594452857971191, "report/image_loss_std": 0.8462671041488647, "report/model_loss_mean": 2.826460599899292, "report/model_loss_std": 3.745806932449341, "report/post_ent_mag": 57.663795471191406, "report/post_ent_max": 57.663795471191406, "report/post_ent_mean": 42.93231964111328, "report/post_ent_min": 15.96922492980957, "report/post_ent_std": 4.401000022888184, "report/prior_ent_mag": 78.45794677734375, "report/prior_ent_max": 78.45794677734375, "report/prior_ent_mean": 45.62744903564453, "report/prior_ent_min": 20.08717918395996, "report/prior_ent_std": 6.011063575744629, "report/rep_loss_mean": 2.679922580718994, "report/rep_loss_std": 5.421413898468018, "report/reward_avg": 0.8984375, "report/reward_loss_mean": 0.055222198367118835, "report/reward_loss_std": 0.17531262338161469, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.476527214050293, "report/reward_neg_acc": 0.9817596673965454, "report/reward_neg_loss": 0.003268566681072116, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5815350413322449, "report/reward_pred": 0.8514876961708069, "report/reward_rate": 0.08984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01237000897526741, "eval/cont_loss_std": 0.36843255162239075, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 5.904883861541748, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000838670355733484, "eval/cont_pred": 0.9983909130096436, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.95870304107666, "eval/dyn_loss_std": 11.517719268798828, "eval/image_loss_mean": 4.562599182128906, "eval/image_loss_std": 2.8146779537200928, "eval/model_loss_mean": 14.189632415771484, "eval/model_loss_std": 9.20543384552002, "eval/post_ent_mag": 57.432037353515625, "eval/post_ent_max": 57.432037353515625, "eval/post_ent_mean": 42.238521575927734, "eval/post_ent_min": 30.629514694213867, "eval/post_ent_std": 3.6360056400299072, "eval/prior_ent_mag": 78.45794677734375, "eval/prior_ent_max": 78.45794677734375, "eval/prior_ent_mean": 47.19682312011719, "eval/prior_ent_min": 33.035430908203125, "eval/prior_ent_std": 5.662829875946045, "eval/rep_loss_mean": 14.95870304107666, "eval/rep_loss_std": 11.517719268798828, "eval/reward_avg": 0.439453125, "eval/reward_loss_mean": 0.6394424438476562, "eval/reward_loss_std": 3.162510871887207, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997204780578613, "eval/reward_neg_acc": 0.9417773485183716, "eval/reward_neg_loss": 0.046006955206394196, "eval/reward_pos_acc": 0.15555556118488312, "eval/reward_pos_loss": 13.549959182739258, "eval/reward_pred": 0.15364378690719604, "eval/reward_rate": 0.0439453125, "replay/size": 75326.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.8392652771745715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3530196570240456e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0712614059448242e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.071457862854, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 390.6673233509064, "timer/replay._sample_frac": 1.3019143044569694, "timer/replay._sample_avg": 0.015783262902024336, "timer/replay._sample_min": 0.0005393028259277344, "timer/replay._sample_max": 0.04922890663146973, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.740613698959351, "timer/env.step_frac": 0.022463361717128427, "timer/env.step_avg": 0.004357216353561313, "timer/env.step_min": 0.002297639846801758, "timer/env.step_max": 0.034941911697387695, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.36620712280273, "timer/agent.policy_frac": 0.37113228934190085, "timer/agent.policy_avg": 0.07198849846335019, "timer/agent.policy_min": 0.003113985061645508, "timer/agent.policy_max": 0.10512900352478027, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15476083755493164, "timer/dataset_train_frac": 0.0005157466113477018, "timer/dataset_train_avg": 0.0001000393261505699, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.00022149085998535156, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.60382652282715, "timer/agent.train_frac": 0.6018693940740313, "timer/agent.train_avg": 0.1167445549598107, "timer/agent.train_min": 0.10264253616333008, "timer/agent.train_max": 0.20801734924316406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25912904739379883, "timer/agent.report_frac": 0.0008635577979970102, "timer/agent.report_avg": 0.12956452369689941, "timer/agent.report_min": 0.09813618659973145, "timer/agent.report_max": 0.16099286079406738, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8751128504092905e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.620338605441656}
{"step": 176868, "episode/length": 438.0, "episode/score": 460.0, "episode/reward_rate": 0.10478359908883828}
{"step": 178380, "episode/length": 377.0, "episode/score": 450.0, "episode/reward_rate": 0.11904761904761904}
{"step": 180160, "episode/length": 444.0, "episode/score": 460.0, "episode/reward_rate": 0.10337078651685393}
{"step": 181776, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.221233933971774, "train/action_min": 0.0, "train/action_std": 4.026782954123712, "train/actor_opt_grad_norm": 0.006146868315315054, "train/actor_opt_grad_steps": 43570.0, "train/actor_opt_loss": 0.0006476370897050196, "train/adv_mag": 0.4579027818095299, "train/adv_max": 0.4375659780156228, "train/adv_mean": 0.0016530869311311342, "train/adv_min": -0.30426703681868894, "train/adv_std": 0.025288576116004297, "train/cont_avg": 0.998305191532258, "train/cont_loss_mean": 0.001034598564344393, "train/cont_loss_std": 0.02324308326469984, "train/cont_neg_acc": 0.8583989518833911, "train/cont_neg_loss": 0.2942803928502638, "train/cont_pos_acc": 0.9998167880119816, "train/cont_pos_loss": 0.0005273451878173135, "train/cont_pred": 0.9982288133713507, "train/cont_rate": 0.998305191532258, "train/dyn_loss_mean": 2.8870958589738414, "train/dyn_loss_std": 5.689209122811595, "train/extr_critic_critic_opt_grad_norm": 1.3351391280851057, "train/extr_critic_critic_opt_grad_steps": 43570.0, "train/extr_critic_critic_opt_loss": 1.4976803671929144, "train/extr_critic_mag": 300.4958423245338, "train/extr_critic_max": 300.4958423245338, "train/extr_critic_mean": 106.32754777477633, "train/extr_critic_min": 0.08262466384518531, "train/extr_critic_std": 73.2328974323888, "train/extr_return_normed_mag": 1.2477727113231536, "train/extr_return_normed_max": 1.2477727113231536, "train/extr_return_normed_mean": 0.42341877183606547, "train/extr_return_normed_min": -0.021260621870732715, "train/extr_return_normed_std": 0.3057327122457566, "train/extr_return_rate": 0.9581741902136034, "train/extr_return_raw_mag": 304.5097892515121, "train/extr_return_raw_max": 304.5097892515121, "train/extr_return_raw_mean": 106.72440997708229, "train/extr_return_raw_min": 0.06284433807614409, "train/extr_return_raw_std": 73.36285151820029, "train/extr_reward_mag": 28.865006656031454, "train/extr_reward_max": 28.865006656031454, "train/extr_reward_mean": 0.6807227996087843, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.5293337314359605, "train/image_loss_mean": 1.3946452894518453, "train/image_loss_std": 0.9844042939524497, "train/model_loss_mean": 3.1842496795039024, "train/model_loss_std": 4.0677216745192, "train/model_opt_grad_norm": 11.638825905707575, "train/model_opt_grad_steps": 43570.0, "train/model_opt_loss": 3.1842496795039024, "train/policy_entropy_mag": 2.6614446009359054, "train/policy_entropy_max": 2.6614446009359054, "train/policy_entropy_mean": 0.9486915665288125, "train/policy_entropy_min": 0.08019946746287808, "train/policy_entropy_std": 0.7412443441729392, "train/policy_logprob_mag": 7.495455234281478, "train/policy_logprob_max": -0.009490537685492347, "train/policy_logprob_mean": -0.9475336824693987, "train/policy_logprob_min": -7.495455234281478, "train/policy_logprob_std": 1.3039973135917418, "train/policy_randomness_mag": 0.9207966562240354, "train/policy_randomness_max": 0.9207966562240354, "train/policy_randomness_mean": 0.3282247649085137, "train/policy_randomness_min": 0.027747112043922946, "train/policy_randomness_std": 0.256452946797494, "train/post_ent_mag": 57.29522646011845, "train/post_ent_max": 57.29522646011845, "train/post_ent_mean": 42.593082870975614, "train/post_ent_min": 17.222841465857723, "train/post_ent_std": 4.148803434064312, "train/prior_ent_mag": 78.69873465261152, "train/prior_ent_max": 78.69873465261152, "train/prior_ent_mean": 45.51946342222152, "train/prior_ent_min": 21.408930237062517, "train/prior_ent_std": 6.047458633299796, "train/rep_loss_mean": 2.8870958589738414, "train/rep_loss_std": 5.689209122811595, "train/reward_avg": 0.7743195564516129, "train/reward_loss_mean": 0.056312285099298726, "train/reward_loss_std": 0.23674626725335274, "train/reward_max_data": 46.25806451612903, "train/reward_max_pred": 21.544539789999686, "train/reward_neg_acc": 0.9760064082760964, "train/reward_neg_loss": 0.007019518728127643, "train/reward_pos_acc": 0.9933144042568822, "train/reward_pos_loss": 0.6801435882045377, "train/reward_pred": 0.6979318013114314, "train/reward_rate": 0.07370211693548387, "train_stats/mean_log_entropy": 0.7687607804934183, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00030980672454461455, "report/cont_loss_std": 0.0065956199541687965, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.16513052582740784, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014869165897835046, "report/cont_pred": 0.9990317225456238, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6372995376586914, "report/dyn_loss_std": 5.871596813201904, "report/image_loss_mean": 1.4689582586288452, "report/image_loss_std": 0.8950450420379639, "report/model_loss_mean": 3.0894901752471924, "report/model_loss_std": 4.131186485290527, "report/post_ent_mag": 59.298892974853516, "report/post_ent_max": 59.298892974853516, "report/post_ent_mean": 42.582969665527344, "report/post_ent_min": 17.06793975830078, "report/post_ent_std": 3.999217987060547, "report/prior_ent_mag": 78.76725006103516, "report/prior_ent_max": 78.76725006103516, "report/prior_ent_mean": 45.275360107421875, "report/prior_ent_min": 16.876232147216797, "report/prior_ent_std": 5.737289905548096, "report/rep_loss_mean": 2.6372995376586914, "report/rep_loss_std": 5.871596813201904, "report/reward_avg": 0.5859375, "report/reward_loss_mean": 0.03784230351448059, "report/reward_loss_std": 0.1429811418056488, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.44841957092285, "report/reward_neg_acc": 0.9761658310890198, "report/reward_neg_loss": 0.0049767689779400826, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5753887891769409, "report/reward_pred": 0.5615725517272949, "report/reward_rate": 0.0576171875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.9252564015914686e-05, "eval/cont_loss_std": 0.0005721261259168386, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.9252564015914686e-05, "eval/cont_pred": 0.9999809265136719, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.142166137695312, "eval/dyn_loss_std": 9.397370338439941, "eval/image_loss_mean": 5.110130310058594, "eval/image_loss_std": 2.7906792163848877, "eval/model_loss_mean": 15.267677307128906, "eval/model_loss_std": 8.07963752746582, "eval/post_ent_mag": 55.0782470703125, "eval/post_ent_max": 55.0782470703125, "eval/post_ent_mean": 43.1967658996582, "eval/post_ent_min": 30.52008056640625, "eval/post_ent_std": 3.767996311187744, "eval/prior_ent_mag": 78.76725006103516, "eval/prior_ent_max": 78.76725006103516, "eval/prior_ent_mean": 48.76687240600586, "eval/prior_ent_min": 37.07632827758789, "eval/prior_ent_std": 5.07467794418335, "eval/rep_loss_mean": 16.142166137695312, "eval/rep_loss_std": 9.397370338439941, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.4722285270690918, "eval/reward_loss_std": 2.8533852100372314, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007823944091797, "eval/reward_neg_acc": 0.9627766013145447, "eval/reward_neg_loss": 0.027112985029816628, "eval/reward_pos_acc": 0.03333333507180214, "eval/reward_pos_loss": 15.220391273498535, "eval/reward_pred": 0.06291636824607849, "eval/reward_rate": 0.029296875, "replay/size": 76875.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.852256750275505e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351176499550846e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14131784439087, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 388.9215829372406, "timer/replay._sample_frac": 1.295794879993424, "timer/replay._sample_avg": 0.01569244605137349, "timer/replay._sample_min": 0.0004494190216064453, "timer/replay._sample_max": 0.05362582206726074, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.765681743621826, "timer/env.step_frac": 0.02254165401888957, "timer/env.step_avg": 0.004367773882260701, "timer/env.step_min": 0.002160787582397461, "timer/env.step_max": 0.028349637985229492, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.44293689727783, "timer/agent.policy_frac": 0.37130155120814035, "timer/agent.policy_avg": 0.07194508514995342, "timer/agent.policy_min": 0.002927064895629883, "timer/agent.policy_max": 0.08912968635559082, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15176701545715332, "timer/dataset_train_frac": 0.0005056518594212256, "timer/dataset_train_avg": 9.797741475607058e-05, "timer/dataset_train_min": 5.6743621826171875e-05, "timer/dataset_train_max": 0.0002162456512451172, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.5505166053772, "timer/agent.train_frac": 0.6015516887247897, "timer/agent.train_avg": 0.11655940387693815, "timer/agent.train_min": 0.10340166091918945, "timer/agent.train_max": 0.20429539680480957, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.27083778381347656, "timer/agent.report_frac": 0.000902367543924403, "timer/agent.report_avg": 0.13541889190673828, "timer/agent.report_min": 0.10622191429138184, "timer/agent.report_max": 0.16461586952209473, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.29425048828125e-05, "timer/dataset_eval_frac": 2.0970956393096543e-07, "timer/dataset_eval_avg": 6.29425048828125e-05, "timer/dataset_eval_min": 6.29425048828125e-05, "timer/dataset_eval_max": 6.29425048828125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.642358602184355}
{"step": 182364, "episode/length": 550.0, "episode/score": 500.0, "episode/reward_rate": 0.08892921960072596}
{"step": 184088, "episode/length": 430.0, "episode/score": 440.0, "episode/reward_rate": 0.09976798143851508}
{"step": 185516, "episode/length": 356.0, "episode/score": 460.0, "episode/reward_rate": 0.12605042016806722}
{"step": 187112, "episode/length": 398.0, "episode/score": 440.0, "episode/reward_rate": 0.10776942355889724}
{"step": 187968, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.136302135836694, "train/action_min": 0.0, "train/action_std": 4.100279615771386, "train/actor_opt_grad_norm": 0.006171273363513812, "train/actor_opt_grad_steps": 45120.0, "train/actor_opt_loss": 0.0005828883090162567, "train/adv_mag": 0.4793151207508579, "train/adv_max": 0.46262751000542796, "train/adv_mean": 0.0016222247787218, "train/adv_min": -0.3060479832272376, "train/adv_std": 0.02614683441577419, "train/cont_avg": 0.9983492943548387, "train/cont_loss_mean": 0.0010227867026474673, "train/cont_loss_std": 0.02441316100919193, "train/cont_neg_acc": 0.854497356074197, "train/cont_neg_loss": 0.38366229574690114, "train/cont_pos_acc": 0.9998673331352972, "train/cont_pos_loss": 0.0003834797157493643, "train/cont_pred": 0.9983659867317446, "train/cont_rate": 0.9983492943548387, "train/dyn_loss_mean": 2.8635890545383575, "train/dyn_loss_std": 5.608427459962907, "train/extr_critic_critic_opt_grad_norm": 1.4060289009924858, "train/extr_critic_critic_opt_grad_steps": 45120.0, "train/extr_critic_critic_opt_loss": 1.5310206497869183, "train/extr_critic_mag": 302.9501413652974, "train/extr_critic_max": 302.9501413652974, "train/extr_critic_mean": 104.91715304466986, "train/extr_critic_min": 0.08752556693169379, "train/extr_critic_std": 74.26708093458606, "train/extr_return_normed_mag": 1.2713120387446495, "train/extr_return_normed_max": 1.2713120387446495, "train/extr_return_normed_mean": 0.4153951306496897, "train/extr_return_normed_min": -0.021745299116798466, "train/extr_return_normed_std": 0.30919420055804714, "train/extr_return_rate": 0.9579188150744284, "train/extr_return_raw_mag": 311.40191256615424, "train/extr_return_raw_max": 311.40191256615424, "train/extr_return_raw_mean": 105.3078610327936, "train/extr_return_raw_min": 0.06619856890230891, "train/extr_return_raw_std": 74.44591724026587, "train/extr_reward_mag": 34.06230084819178, "train/extr_reward_max": 34.06230084819178, "train/extr_reward_mean": 0.7013917586495799, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.645118498802185, "train/image_loss_mean": 1.3447000880395212, "train/image_loss_std": 0.9471126548705563, "train/model_loss_mean": 3.120396977086221, "train/model_loss_std": 3.9915841256418534, "train/model_opt_grad_norm": 12.030715311727215, "train/model_opt_grad_steps": 45120.0, "train/model_opt_loss": 3.120396977086221, "train/policy_entropy_mag": 2.667856437929215, "train/policy_entropy_max": 2.667856437929215, "train/policy_entropy_mean": 0.967254816332171, "train/policy_entropy_min": 0.08019872625027934, "train/policy_entropy_std": 0.7581591486930848, "train/policy_logprob_mag": 7.495456166421214, "train/policy_logprob_max": -0.009490421101931603, "train/policy_logprob_mean": -0.9658833815205482, "train/policy_logprob_min": -7.495456166421214, "train/policy_logprob_std": 1.309472741619233, "train/policy_randomness_mag": 0.9230150011277968, "train/policy_randomness_max": 0.9230150011277968, "train/policy_randomness_mean": 0.3346472090290439, "train/policy_randomness_min": 0.027746855623779758, "train/policy_randomness_std": 0.2623050675276787, "train/post_ent_mag": 57.699729993266445, "train/post_ent_max": 57.699729993266445, "train/post_ent_mean": 42.7400508511451, "train/post_ent_min": 17.12366777235462, "train/post_ent_std": 4.226937020209528, "train/prior_ent_mag": 79.03239952825732, "train/prior_ent_max": 79.03239952825732, "train/prior_ent_mean": 45.624116417669484, "train/prior_ent_min": 21.41475718713576, "train/prior_ent_std": 6.096354986006213, "train/rep_loss_mean": 2.8635890545383575, "train/rep_loss_std": 5.608427459962907, "train/reward_avg": 0.7934097782258065, "train/reward_loss_mean": 0.05652065261477424, "train/reward_loss_std": 0.2300743538045114, "train/reward_max_data": 40.58064516129032, "train/reward_max_pred": 22.52517848476287, "train/reward_neg_acc": 0.9768052220344543, "train/reward_neg_loss": 0.006774290386707552, "train/reward_pos_acc": 0.9940708798746909, "train/reward_pos_loss": 0.6648381544697669, "train/reward_pred": 0.7236305946303953, "train/reward_rate": 0.07582535282258064, "train_stats/mean_log_entropy": 0.786702960729599, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0001767385983839631, "report/cont_loss_std": 0.004872164689004421, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00033997147693298757, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00017657903663348407, "report/cont_pred": 0.9988586902618408, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.07539963722229, "report/dyn_loss_std": 5.518971920013428, "report/image_loss_mean": 1.3949952125549316, "report/image_loss_std": 0.9224606156349182, "report/model_loss_mean": 3.2887845039367676, "report/model_loss_std": 3.8591387271881104, "report/post_ent_mag": 55.81598663330078, "report/post_ent_max": 55.81598663330078, "report/post_ent_mean": 43.699920654296875, "report/post_ent_min": 16.849538803100586, "report/post_ent_std": 4.492931365966797, "report/prior_ent_mag": 79.15684509277344, "report/prior_ent_max": 79.15684509277344, "report/prior_ent_mean": 46.88934326171875, "report/prior_ent_min": 19.93824577331543, "report/prior_ent_std": 6.005491256713867, "report/rep_loss_mean": 3.07539963722229, "report/rep_loss_std": 5.518971920013428, "report/reward_avg": 0.625, "report/reward_loss_mean": 0.0483727753162384, "report/reward_loss_std": 0.20826363563537598, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.642919540405273, "report/reward_neg_acc": 0.9781478047370911, "report/reward_neg_loss": 0.005884249694645405, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6964914202690125, "report/reward_pred": 0.5630656480789185, "report/reward_rate": 0.0615234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.663072902782005e-07, "eval/cont_loss_std": 5.887192401132779e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.663072902782005e-07, "eval/cont_pred": 0.9999997019767761, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.389379501342773, "eval/dyn_loss_std": 9.833005905151367, "eval/image_loss_mean": 4.802196979522705, "eval/image_loss_std": 2.8417863845825195, "eval/model_loss_mean": 14.813556671142578, "eval/model_loss_std": 8.97929859161377, "eval/post_ent_mag": 58.26361846923828, "eval/post_ent_max": 58.26361846923828, "eval/post_ent_mean": 43.199798583984375, "eval/post_ent_min": 30.932092666625977, "eval/post_ent_std": 3.945934295654297, "eval/prior_ent_mag": 79.15684509277344, "eval/prior_ent_max": 79.15684509277344, "eval/prior_ent_mean": 48.897396087646484, "eval/prior_ent_min": 37.22955322265625, "eval/prior_ent_std": 5.199416637420654, "eval/rep_loss_mean": 15.389379501342773, "eval/rep_loss_std": 9.833005905151367, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.7777317762374878, "eval/reward_loss_std": 3.7610511779785156, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.086695671081543, "eval/reward_neg_acc": 0.9538934826850891, "eval/reward_neg_loss": 0.01844249852001667, "eval/reward_pos_acc": 0.0625, "eval/reward_pos_loss": 16.21661376953125, "eval/reward_pred": 0.07150581479072571, "eval/reward_rate": 0.046875, "replay/size": 78423.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.856469403249657e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363492273237046e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 4.1425228118896484e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0176589488983, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 386.99311232566833, "timer/replay._sample_frac": 1.289901113426075, "timer/replay._sample_avg": 0.01562472191237356, "timer/replay._sample_min": 0.0005068778991699219, "timer/replay._sample_max": 0.04294157028198242, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.8151679039001465, "timer/env.step_frac": 0.022715889217244264, "timer/env.step_avg": 0.0044025632454135315, "timer/env.step_min": 0.002317667007446289, "timer/env.step_max": 0.0330805778503418, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.99783563613892, "timer/agent.policy_frac": 0.36997100779006165, "timer/agent.policy_avg": 0.07170402818872024, "timer/agent.policy_min": 0.0030684471130371094, "timer/agent.policy_max": 0.08645272254943848, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1511998176574707, "timer/dataset_train_frac": 0.000503969726939388, "timer/dataset_train_avg": 9.767430081231958e-05, "timer/dataset_train_min": 5.8650970458984375e-05, "timer/dataset_train_max": 0.0002715587615966797, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.81954383850098, "timer/agent.train_frac": 0.6026963361823304, "timer/agent.train_avg": 0.11680849085174481, "timer/agent.train_min": 0.10224318504333496, "timer/agent.train_max": 0.2030649185180664, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2521085739135742, "timer/agent.report_frac": 0.0008403124495965606, "timer/agent.report_avg": 0.1260542869567871, "timer/agent.report_min": 0.09744501113891602, "timer/agent.report_max": 0.1546635627746582, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.030632019042969e-05, "timer/dataset_eval_frac": 1.6767786391866457e-07, "timer/dataset_eval_avg": 5.030632019042969e-05, "timer/dataset_eval_min": 5.030632019042969e-05, "timer/dataset_eval_max": 5.030632019042969e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63760275420049}
{"step": 188908, "episode/length": 448.0, "episode/score": 990.0, "episode/reward_rate": 0.111358574610245}
{"step": 191604, "episode/length": 673.0, "episode/score": 630.0, "episode/reward_rate": 0.09347181008902077}
{"step": 193756, "episode/length": 537.0, "episode/score": 600.0, "episode/reward_rate": 0.10966542750929369}
{"step": 194140, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.240908932376218, "train/action_min": 0.0, "train/action_std": 4.03010782947788, "train/actor_opt_grad_norm": 0.005923200669311374, "train/actor_opt_grad_steps": 46665.0, "train/actor_opt_loss": 0.0004563933886056593, "train/adv_mag": 0.45637682341522984, "train/adv_max": 0.43126278109364696, "train/adv_mean": 0.0013754747293063844, "train/adv_min": -0.30574339236338416, "train/adv_std": 0.0246088246742336, "train/cont_avg": 0.9983766233766234, "train/cont_loss_mean": 0.0007858975820469864, "train/cont_loss_std": 0.016979635440092553, "train/cont_neg_acc": 0.8837270354192088, "train/cont_neg_loss": 0.26117402495153835, "train/cont_pos_acc": 0.9999046081846411, "train/cont_pos_loss": 0.00036224949147958206, "train/cont_pred": 0.9983311670941192, "train/cont_rate": 0.9983766233766234, "train/dyn_loss_mean": 2.844265781439744, "train/dyn_loss_std": 5.679775640561983, "train/extr_critic_critic_opt_grad_norm": 1.328331334637357, "train/extr_critic_critic_opt_grad_steps": 46665.0, "train/extr_critic_critic_opt_loss": 1.4709562636041023, "train/extr_critic_mag": 304.7047882080078, "train/extr_critic_max": 304.7047882080078, "train/extr_critic_mean": 109.78089300378576, "train/extr_critic_min": 0.2729754564049956, "train/extr_critic_std": 74.54939973509157, "train/extr_return_normed_mag": 1.2687549436247194, "train/extr_return_normed_max": 1.2687549436247194, "train/extr_return_normed_mean": 0.4347655912498375, "train/extr_return_normed_min": -0.020686458318506355, "train/extr_return_normed_std": 0.30919596098073115, "train/extr_return_rate": 0.9578755381819489, "train/extr_return_raw_mag": 311.4856984522436, "train/extr_return_raw_max": 311.4856984522436, "train/extr_return_raw_mean": 110.11321451756861, "train/extr_return_raw_min": 0.1773384758981864, "train/extr_return_raw_std": 74.65638289513527, "train/extr_reward_mag": 25.24511971411767, "train/extr_reward_max": 25.24511971411767, "train/extr_reward_mean": 0.7194588269506182, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.558221820887033, "train/image_loss_mean": 1.31548579714515, "train/image_loss_std": 0.9352817995981737, "train/model_loss_mean": 3.0794638333382545, "train/model_loss_std": 4.022947908995987, "train/model_opt_grad_norm": 11.882935527083161, "train/model_opt_grad_steps": 46665.0, "train/model_opt_loss": 3.0794638333382545, "train/policy_entropy_mag": 2.656795139436598, "train/policy_entropy_max": 2.656795139436598, "train/policy_entropy_mean": 0.9444689259126589, "train/policy_entropy_min": 0.08019877689612376, "train/policy_entropy_std": 0.7525661777366291, "train/policy_logprob_mag": 7.495474570757382, "train/policy_logprob_max": -0.009490419874669283, "train/policy_logprob_mean": -0.9437381605823318, "train/policy_logprob_min": -7.495474570757382, "train/policy_logprob_std": 1.3042076369384668, "train/policy_randomness_mag": 0.9191880531899341, "train/policy_randomness_max": 0.9191880531899341, "train/policy_randomness_mean": 0.32676382914379043, "train/policy_randomness_min": 0.027746873194134082, "train/policy_randomness_std": 0.2603700321603131, "train/post_ent_mag": 58.41729728896897, "train/post_ent_max": 58.41729728896897, "train/post_ent_mean": 42.74917134371671, "train/post_ent_min": 17.17211087338336, "train/post_ent_std": 4.270088873900376, "train/prior_ent_mag": 79.39532535107105, "train/prior_ent_max": 79.39532535107105, "train/prior_ent_mean": 45.60947698122495, "train/prior_ent_min": 21.63308871256841, "train/prior_ent_std": 6.125437083182397, "train/rep_loss_mean": 2.844265781439744, "train/rep_loss_std": 5.679775640561983, "train/reward_avg": 0.794439935064935, "train/reward_loss_mean": 0.056632675919923686, "train/reward_loss_std": 0.22994605417956004, "train/reward_max_data": 31.2987012987013, "train/reward_max_pred": 19.689474539323285, "train/reward_neg_acc": 0.9774714770255151, "train/reward_neg_loss": 0.006291025556327606, "train/reward_pos_acc": 0.9942455945850966, "train/reward_pos_loss": 0.6615893360856292, "train/reward_pred": 0.7370424564782675, "train/reward_rate": 0.07714209618506493, "train_stats/mean_log_entropy": 0.9527947902679443, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.761587661050726e-06, "report/cont_loss_std": 6.0905746067874134e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.761587661050726e-06, "report/cont_pred": 0.999995231628418, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.5775296688079834, "report/dyn_loss_std": 6.068604469299316, "report/image_loss_mean": 1.7789373397827148, "report/image_loss_std": 1.185302734375, "report/model_loss_mean": 3.9634268283843994, "report/model_loss_std": 4.401944637298584, "report/post_ent_mag": 54.559356689453125, "report/post_ent_max": 54.559356689453125, "report/post_ent_mean": 42.484649658203125, "report/post_ent_min": 18.10304832458496, "report/post_ent_std": 4.34471321105957, "report/prior_ent_mag": 79.72732543945312, "report/prior_ent_max": 79.72732543945312, "report/prior_ent_mean": 46.324951171875, "report/prior_ent_min": 26.828445434570312, "report/prior_ent_std": 6.2238240242004395, "report/rep_loss_mean": 3.5775296688079834, "report/rep_loss_std": 6.068604469299316, "report/reward_avg": 0.478515625, "report/reward_loss_mean": 0.03796708583831787, "report/reward_loss_std": 0.17919309437274933, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.844057083129883, "report/reward_neg_acc": 0.9764585494995117, "report/reward_neg_loss": 0.008724872022867203, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6458317637443542, "report/reward_pred": 0.467607706785202, "report/reward_rate": 0.0458984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0177147313952446, "eval/cont_loss_std": 0.4439149498939514, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 9.068553924560547, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.720093789321254e-06, "eval/cont_pred": 0.9999886751174927, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 15.624073028564453, "eval/dyn_loss_std": 10.787047386169434, "eval/image_loss_mean": 4.945069789886475, "eval/image_loss_std": 2.916163682937622, "eval/model_loss_mean": 14.740560531616211, "eval/model_loss_std": 8.791935920715332, "eval/post_ent_mag": 59.08317565917969, "eval/post_ent_max": 59.08317565917969, "eval/post_ent_mean": 42.850196838378906, "eval/post_ent_min": 30.886775970458984, "eval/post_ent_std": 3.980571746826172, "eval/prior_ent_mag": 79.72732543945312, "eval/prior_ent_max": 79.72732543945312, "eval/prior_ent_mean": 49.01002502441406, "eval/prior_ent_min": 33.53242492675781, "eval/prior_ent_std": 5.700318336486816, "eval/rep_loss_mean": 15.624073028564453, "eval/rep_loss_std": 10.787047386169434, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.4033326506614685, "eval/reward_loss_std": 2.578467845916748, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.967763900756836, "eval/reward_neg_acc": 0.9577889442443848, "eval/reward_neg_loss": 0.025262318551540375, "eval/reward_pos_acc": 0.13793103396892548, "eval/reward_pos_loss": 13.375057220458984, "eval/reward_pred": 0.08675608038902283, "eval/reward_rate": 0.0283203125, "replay/size": 79966.0, "replay/inserts": 1543.0, "replay/samples": 24688.0, "replay/insert_wait_avg": 4.856754879015109e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3465222335835208e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.00151348114014, "timer/replay._sample_count": 24688.0, "timer/replay._sample_total": 386.3638119697571, "timer/replay._sample_frac": 1.287872875994828, "timer/replay._sample_avg": 0.015649862766111352, "timer/replay._sample_min": 0.0017125606536865234, "timer/replay._sample_max": 0.25563478469848633, "timer/env.step_count": 1543.0, "timer/env.step_total": 6.784500360488892, "timer/env.step_frac": 0.022614887110945878, "timer/env.step_avg": 0.004396954219370636, "timer/env.step_min": 0.002300739288330078, "timer/env.step_max": 0.04745817184448242, "timer/agent.policy_count": 1543.0, "timer/agent.policy_total": 110.90390419960022, "timer/agent.policy_frac": 0.36967781566399427, "timer/agent.policy_avg": 0.07187550499001959, "timer/agent.policy_min": 0.002916097640991211, "timer/agent.policy_max": 0.15918397903442383, "timer/dataset_train_count": 1543.0, "timer/dataset_train_total": 0.15803861618041992, "timer/dataset_train_frac": 0.0005267927296318628, "timer/dataset_train_avg": 0.0001024229528064938, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.0002548694610595703, "timer/agent.train_count": 1543.0, "timer/agent.train_total": 180.9493272304535, "timer/agent.train_frac": 0.603161381190262, "timer/agent.train_avg": 0.11727111291669053, "timer/agent.train_min": 0.10289144515991211, "timer/agent.train_max": 0.5996947288513184, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25492238998413086, "timer/agent.report_frac": 0.0008497370130772917, "timer/agent.report_avg": 0.12746119499206543, "timer/agent.report_min": 0.09390974044799805, "timer/agent.report_max": 0.1610126495361328, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.574920654296875e-05, "timer/dataset_eval_frac": 8.583025546831948e-08, "timer/dataset_eval_avg": 2.574920654296875e-05, "timer/dataset_eval_min": 2.574920654296875e-05, "timer/dataset_eval_max": 2.574920654296875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1606600284576416, "timer/agent.save_frac": 0.0005355307264732904, "timer/agent.save_avg": 0.1606600284576416, "timer/agent.save_min": 0.1606600284576416, "timer/agent.save_max": 0.1606600284576416, "fps": 20.57207483606928}
{"step": 195840, "episode/length": 520.0, "episode/score": 580.0, "episode/reward_rate": 0.10748560460652591}
{"step": 197972, "episode/length": 532.0, "episode/score": 540.0, "episode/reward_rate": 0.09943714821763602}
{"step": 199568, "episode/length": 398.0, "episode/score": 530.0, "episode/reward_rate": 0.13032581453634084}
{"step": 200328, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.214623629662299, "train/action_min": 0.0, "train/action_std": 4.074697282237391, "train/actor_opt_grad_norm": 0.006381222686820454, "train/actor_opt_grad_steps": 48210.0, "train/actor_opt_loss": 0.0008073829095484407, "train/adv_mag": 0.5231506987925498, "train/adv_max": 0.4934828374655016, "train/adv_mean": 0.0017652599623855373, "train/adv_min": -0.3186006970943943, "train/adv_std": 0.0266223399629516, "train/cont_avg": 0.9982232862903225, "train/cont_loss_mean": 0.001090515031935704, "train/cont_loss_std": 0.025824989378943723, "train/cont_neg_acc": 0.8398218851053078, "train/cont_neg_loss": 0.3947367151369468, "train/cont_pos_acc": 0.9998736908358913, "train/cont_pos_loss": 0.00038852487797605076, "train/cont_pred": 0.9982759033479999, "train/cont_rate": 0.9982232862903225, "train/dyn_loss_mean": 2.8071460047075827, "train/dyn_loss_std": 5.649005732997772, "train/extr_critic_critic_opt_grad_norm": 1.3193173346980926, "train/extr_critic_critic_opt_grad_steps": 48210.0, "train/extr_critic_critic_opt_loss": 1.491417081894413, "train/extr_critic_mag": 305.4978753858997, "train/extr_critic_max": 305.4978753858997, "train/extr_critic_mean": 110.91006430349043, "train/extr_critic_min": 0.08694382867505474, "train/extr_critic_std": 76.06292471116589, "train/extr_return_normed_mag": 1.3151603898694437, "train/extr_return_normed_max": 1.3151603898694437, "train/extr_return_normed_mean": 0.43816829727542017, "train/extr_return_normed_min": -0.016668271646279122, "train/extr_return_normed_std": 0.31211851508386673, "train/extr_return_rate": 0.9551621813927927, "train/extr_return_raw_mag": 325.60833188949096, "train/extr_return_raw_max": 325.60833188949096, "train/extr_return_raw_mean": 111.34124903525075, "train/extr_return_raw_min": 0.08879283658123666, "train/extr_return_raw_std": 76.34582625358335, "train/extr_reward_mag": 42.70626909194454, "train/extr_reward_max": 42.70626909194454, "train/extr_reward_mean": 0.7642653736375993, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.886591962845095, "train/image_loss_mean": 1.2845328373293723, "train/image_loss_std": 0.9200594694383682, "train/model_loss_mean": 3.028470839223554, "train/model_loss_std": 3.989616420192103, "train/model_opt_grad_norm": 11.131338122583205, "train/model_opt_grad_steps": 48210.0, "train/model_opt_loss": 3.028470839223554, "train/policy_entropy_mag": 2.6593397294321366, "train/policy_entropy_max": 2.6593397294321366, "train/policy_entropy_mean": 0.9459467718678136, "train/policy_entropy_min": 0.08019638994047719, "train/policy_entropy_std": 0.7616828053228317, "train/policy_logprob_mag": 7.495505935915054, "train/policy_logprob_max": -0.009490112587809563, "train/policy_logprob_mean": -0.9459799137807662, "train/policy_logprob_min": -7.495505935915054, "train/policy_logprob_std": 1.3010665424408452, "train/policy_randomness_mag": 0.9200684243632901, "train/policy_randomness_max": 0.9200684243632901, "train/policy_randomness_mean": 0.3272751313063406, "train/policy_randomness_min": 0.027746047343938582, "train/policy_randomness_std": 0.263524170364103, "train/post_ent_mag": 59.02885008781187, "train/post_ent_max": 59.02885008781187, "train/post_ent_mean": 42.76781143680696, "train/post_ent_min": 17.019819364240092, "train/post_ent_std": 4.335387163777505, "train/prior_ent_mag": 79.77684532903857, "train/prior_ent_max": 79.77684532903857, "train/prior_ent_mean": 45.6324699647965, "train/prior_ent_min": 21.091856796510758, "train/prior_ent_std": 6.209986978961576, "train/rep_loss_mean": 2.8071460047075827, "train/rep_loss_std": 5.649005732997772, "train/reward_avg": 0.8557207661290323, "train/reward_loss_mean": 0.05855989648449805, "train/reward_loss_std": 0.2311009435884414, "train/reward_max_data": 53.61290322580645, "train/reward_max_pred": 32.92139844586772, "train/reward_neg_acc": 0.9784163144326979, "train/reward_neg_loss": 0.0066427931873007644, "train/reward_pos_acc": 0.9939810737486808, "train/reward_pos_loss": 0.655111522828379, "train/reward_pred": 0.7879267036914825, "train/reward_rate": 0.08063886088709678, "train_stats/mean_log_entropy": 0.8622337182362875, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0008568198536522686, "report/cont_loss_std": 0.02029980719089508, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.6175066232681274, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00025403418112546206, "report/cont_pred": 0.9992386102676392, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.558492660522461, "report/dyn_loss_std": 5.173844814300537, "report/image_loss_mean": 1.032905101776123, "report/image_loss_std": 0.7571106553077698, "report/model_loss_mean": 2.6150906085968018, "report/model_loss_std": 3.5560967922210693, "report/post_ent_mag": 61.147560119628906, "report/post_ent_max": 61.147560119628906, "report/post_ent_mean": 43.26878356933594, "report/post_ent_min": 16.851985931396484, "report/post_ent_std": 4.188697814941406, "report/prior_ent_mag": 79.95711517333984, "report/prior_ent_max": 79.95711517333984, "report/prior_ent_mean": 45.61917495727539, "report/prior_ent_min": 18.023805618286133, "report/prior_ent_std": 5.976351261138916, "report/rep_loss_mean": 2.558492660522461, "report/rep_loss_std": 5.173844814300537, "report/reward_avg": 0.7421875, "report/reward_loss_mean": 0.04623301699757576, "report/reward_loss_std": 0.16578876972198486, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.005667686462402, "report/reward_neg_acc": 0.9852321147918701, "report/reward_neg_loss": 0.0036497118417173624, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.577403724193573, "report/reward_pred": 0.7226523160934448, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.007224312052130699, "eval/cont_loss_std": 0.20138025283813477, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.6835014820098877, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.003245365107432e-05, "eval/cont_pred": 0.9996078610420227, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.22274112701416, "eval/dyn_loss_std": 10.45492935180664, "eval/image_loss_mean": 4.2517218589782715, "eval/image_loss_std": 3.1137146949768066, "eval/model_loss_mean": 13.169761657714844, "eval/model_loss_std": 9.209249496459961, "eval/post_ent_mag": 58.98257827758789, "eval/post_ent_max": 58.98257827758789, "eval/post_ent_mean": 44.262718200683594, "eval/post_ent_min": 29.126548767089844, "eval/post_ent_std": 4.4858479499816895, "eval/prior_ent_mag": 79.95711517333984, "eval/prior_ent_max": 79.95711517333984, "eval/prior_ent_mean": 49.02222442626953, "eval/prior_ent_min": 31.754016876220703, "eval/prior_ent_std": 6.175797939300537, "eval/rep_loss_mean": 14.22274112701416, "eval/rep_loss_std": 10.45492935180664, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.37716978788375854, "eval/reward_loss_std": 2.3110573291778564, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004664421081543, "eval/reward_neg_acc": 0.9438315033912659, "eval/reward_neg_loss": 0.06611983478069305, "eval/reward_pos_acc": 0.2222222238779068, "eval/reward_pos_loss": 11.86297607421875, "eval/reward_pred": 0.15764829516410828, "eval/reward_rate": 0.0263671875, "replay/size": 81513.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.78794440655995e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3400160580507463e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.7401914596557617e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0665726661682, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 384.8194782733917, "timer/replay._sample_frac": 1.2824470078561976, "timer/replay._sample_avg": 0.015547005424749181, "timer/replay._sample_min": 0.0005786418914794922, "timer/replay._sample_max": 0.03793931007385254, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.774256229400635, "timer/env.step_frac": 0.022575844317511397, "timer/env.step_avg": 0.004378963302779984, "timer/env.step_min": 0.001994609832763672, "timer/env.step_max": 0.030744314193725586, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.88320565223694, "timer/agent.policy_frac": 0.36952868380843396, "timer/agent.policy_avg": 0.07167628031818807, "timer/agent.policy_min": 0.0026421546936035156, "timer/agent.policy_max": 0.08768510818481445, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1601419448852539, "timer/dataset_train_frac": 0.0005336880528289165, "timer/dataset_train_avg": 0.00010351774071444984, "timer/dataset_train_min": 6.103515625e-05, "timer/dataset_train_max": 0.0027251243591308594, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.04294967651367, "timer/agent.train_frac": 0.6033426118341033, "timer/agent.train_avg": 0.11702840961636307, "timer/agent.train_min": 0.10301709175109863, "timer/agent.train_max": 0.20221543312072754, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2627294063568115, "timer/agent.report_frac": 0.0008755703910048812, "timer/agent.report_avg": 0.13136470317840576, "timer/agent.report_min": 0.10083770751953125, "timer/agent.report_max": 0.16189169883728027, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8751433779518984e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.62068503656301}
{"step": 201316, "episode/length": 436.0, "episode/score": 580.0, "episode/reward_rate": 0.13272311212814644}
{"step": 202848, "episode/length": 382.0, "episode/score": 470.0, "episode/reward_rate": 0.12010443864229765}
{"step": 204592, "episode/length": 435.0, "episode/score": 580.0, "episode/reward_rate": 0.13073394495412843}
{"step": 206516, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.297804002637987, "train/action_min": 0.0, "train/action_std": 4.136511341317908, "train/actor_opt_grad_norm": 0.006314368319830724, "train/actor_opt_grad_steps": 49755.0, "train/actor_opt_loss": 0.0006085975103035578, "train/adv_mag": 0.4739374969299738, "train/adv_max": 0.4535113981404862, "train/adv_mean": 0.0018274599908370685, "train/adv_min": -0.29295044372995177, "train/adv_std": 0.02584932805583268, "train/cont_avg": 0.9983956473214286, "train/cont_loss_mean": 0.0009117068283751598, "train/cont_loss_std": 0.020369954646424035, "train/cont_neg_acc": 0.8659946250338708, "train/cont_neg_loss": 0.317403351159614, "train/cont_pos_acc": 0.9998919007840095, "train/cont_pos_loss": 0.00035743902811327053, "train/cont_pred": 0.9984000735468679, "train/cont_rate": 0.9983956473214286, "train/dyn_loss_mean": 2.8642783505576, "train/dyn_loss_std": 5.721190492828171, "train/extr_critic_critic_opt_grad_norm": 1.380934290684663, "train/extr_critic_critic_opt_grad_steps": 49755.0, "train/extr_critic_critic_opt_loss": 1.5074504126201977, "train/extr_critic_mag": 303.04960384616606, "train/extr_critic_max": 303.04960384616606, "train/extr_critic_mean": 107.91146607832475, "train/extr_critic_min": 0.22482036692755564, "train/extr_critic_std": 74.95301283799209, "train/extr_return_normed_mag": 1.282544750284839, "train/extr_return_normed_max": 1.282544750284839, "train/extr_return_normed_mean": 0.4234234791297417, "train/extr_return_normed_min": -0.019064451250332324, "train/extr_return_normed_std": 0.30786923909342134, "train/extr_return_rate": 0.953654759115987, "train/extr_return_raw_mag": 318.5367250318651, "train/extr_return_raw_max": 318.5367250318651, "train/extr_return_raw_mean": 108.35898062470672, "train/extr_return_raw_min": 0.13430752233199944, "train/extr_return_raw_std": 75.3158838346407, "train/extr_reward_mag": 31.442331660877574, "train/extr_reward_max": 31.442331660877574, "train/extr_reward_mean": 0.7218941415285135, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.703858112359976, "train/image_loss_mean": 1.302946542764639, "train/image_loss_std": 0.9340937122122034, "train/model_loss_mean": 3.0802912727578895, "train/model_loss_std": 4.049425055454304, "train/model_opt_grad_norm": 11.170516435202066, "train/model_opt_grad_steps": 49755.0, "train/model_opt_loss": 3.0802912727578895, "train/policy_entropy_mag": 2.6626948180136742, "train/policy_entropy_max": 2.6626948180136742, "train/policy_entropy_mean": 0.9632012337059169, "train/policy_entropy_min": 0.08019854394452912, "train/policy_entropy_std": 0.7603246124533863, "train/policy_logprob_mag": 7.4954926069680745, "train/policy_logprob_max": -0.00949038848184146, "train/policy_logprob_mean": -0.9632350438601011, "train/policy_logprob_min": -7.4954926069680745, "train/policy_logprob_std": 1.3023695473547106, "train/policy_randomness_mag": 0.9212292026389729, "train/policy_randomness_max": 0.9212292026389729, "train/policy_randomness_mean": 0.3332447661207868, "train/policy_randomness_min": 0.02774679260449363, "train/policy_randomness_std": 0.2630542652173476, "train/post_ent_mag": 59.14174134390695, "train/post_ent_max": 59.14174134390695, "train/post_ent_mean": 42.900249431659645, "train/post_ent_min": 16.66779997441676, "train/post_ent_std": 4.354448587863477, "train/prior_ent_mag": 80.10668504392946, "train/prior_ent_max": 80.10668504392946, "train/prior_ent_mean": 45.774642052588526, "train/prior_ent_min": 20.81893863306417, "train/prior_ent_std": 6.226901497159686, "train/rep_loss_mean": 2.8642783505576, "train/rep_loss_std": 5.721190492828171, "train/reward_avg": 0.783406047077922, "train/reward_loss_mean": 0.05786600522696972, "train/reward_loss_std": 0.24527851018038663, "train/reward_max_data": 31.753246753246753, "train/reward_max_pred": 21.6346467686938, "train/reward_neg_acc": 0.977373297725405, "train/reward_neg_loss": 0.007061288745729132, "train/reward_pos_acc": 0.9907813888865632, "train/reward_pos_loss": 0.6799812781346308, "train/reward_pred": 0.7225885710545948, "train/reward_rate": 0.07591822240259741, "train_stats/mean_log_entropy": 0.7323207457860311, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.6201083781197667e-06, "report/cont_loss_std": 2.346320979995653e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6201083781197667e-06, "report/cont_pred": 0.9999984502792358, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.8078436851501465, "report/dyn_loss_std": 5.579455375671387, "report/image_loss_mean": 1.3626892566680908, "report/image_loss_std": 0.9184505343437195, "report/model_loss_mean": 3.1060237884521484, "report/model_loss_std": 4.008078575134277, "report/post_ent_mag": 61.39736557006836, "report/post_ent_max": 61.39736557006836, "report/post_ent_mean": 43.168739318847656, "report/post_ent_min": 14.424116134643555, "report/post_ent_std": 4.3649091720581055, "report/prior_ent_mag": 80.07186889648438, "report/prior_ent_max": 80.07186889648438, "report/prior_ent_mean": 46.16382598876953, "report/prior_ent_min": 18.206708908081055, "report/prior_ent_std": 6.019071578979492, "report/rep_loss_mean": 2.8078436851501465, "report/rep_loss_std": 5.579455375671387, "report/reward_avg": 0.76171875, "report/reward_loss_mean": 0.05862678214907646, "report/reward_loss_std": 0.21342435479164124, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.949745178222656, "report/reward_neg_acc": 0.9662091135978699, "report/reward_neg_loss": 0.009659362025558949, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6608625054359436, "report/reward_pred": 0.7021883726119995, "report/reward_rate": 0.0751953125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.02119331993162632, "eval/cont_loss_std": 0.47896715998649597, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.847890853881836, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.046338967280462e-06, "eval/cont_pred": 0.9999939799308777, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 16.501968383789062, "eval/dyn_loss_std": 12.021646499633789, "eval/image_loss_mean": 4.607485294342041, "eval/image_loss_std": 2.865252733230591, "eval/model_loss_mean": 14.942159652709961, "eval/model_loss_std": 9.559674263000488, "eval/post_ent_mag": 59.81403350830078, "eval/post_ent_max": 59.81403350830078, "eval/post_ent_mean": 43.127357482910156, "eval/post_ent_min": 26.24774169921875, "eval/post_ent_std": 4.0922980308532715, "eval/prior_ent_mag": 80.07186889648438, "eval/prior_ent_max": 80.07186889648438, "eval/prior_ent_mean": 48.248016357421875, "eval/prior_ent_min": 30.528583526611328, "eval/prior_ent_std": 5.864936828613281, "eval/rep_loss_mean": 16.501968383789062, "eval/rep_loss_std": 12.021646499633789, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.41230061650276184, "eval/reward_loss_std": 2.5215606689453125, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.79957389831543, "eval/reward_neg_acc": 0.9426559209823608, "eval/reward_neg_loss": 0.04716460406780243, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 12.51047420501709, "eval/reward_pred": 0.15673920512199402, "eval/reward_rate": 0.029296875, "replay/size": 83060.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.895055532917795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3374923966203725e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.130866050720215e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0335292816162, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 383.19629740715027, "timer/replay._sample_frac": 1.2771782484599452, "timer/replay._sample_avg": 0.015481427658659917, "timer/replay._sample_min": 0.0004589557647705078, "timer/replay._sample_max": 0.05086922645568848, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.717264890670776, "timer/env.step_frac": 0.02238838074782584, "timer/env.step_avg": 0.004342123394098757, "timer/env.step_min": 0.002289295196533203, "timer/env.step_max": 0.026265621185302734, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.90412592887878, "timer/agent.policy_frac": 0.36963910731717725, "timer/agent.policy_avg": 0.07168980344465338, "timer/agent.policy_min": 0.0028760433197021484, "timer/agent.policy_max": 0.08723115921020508, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15218472480773926, "timer/dataset_train_frac": 0.0005072257263117292, "timer/dataset_train_avg": 9.83740948983447e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.0002562999725341797, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.06629157066345, "timer/agent.train_frac": 0.6034868569662818, "timer/agent.train_avg": 0.1170434981064405, "timer/agent.train_min": 0.10373306274414062, "timer/agent.train_max": 0.203477144241333, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26055264472961426, "timer/agent.report_frac": 0.0008684117583573649, "timer/agent.report_avg": 0.13027632236480713, "timer/agent.report_min": 0.0985260009765625, "timer/agent.report_max": 0.16202664375305176, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.605552673339844e-05, "timer/dataset_eval_frac": 2.534900913091334e-07, "timer/dataset_eval_avg": 7.605552673339844e-05, "timer/dataset_eval_min": 7.605552673339844e-05, "timer/dataset_eval_max": 7.605552673339844e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.62311441157253}
{"step": 206944, "episode/length": 587.0, "episode/score": 520.0, "episode/reward_rate": 0.08673469387755102}
{"step": 208404, "episode/length": 364.0, "episode/score": 460.0, "episode/reward_rate": 0.1232876712328767}
{"step": 210400, "episode/length": 498.0, "episode/score": 570.0, "episode/reward_rate": 0.11422845691382766}
{"step": 212700, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.396398138230847, "train/action_min": 0.0, "train/action_std": 4.177246099902738, "train/actor_opt_grad_norm": 0.006252296124735186, "train/actor_opt_grad_steps": 51300.0, "train/actor_opt_loss": 0.0007010094010902614, "train/adv_mag": 0.573919949896874, "train/adv_max": 0.5540263690294758, "train/adv_mean": 0.001905066752160858, "train/adv_min": -0.30314787039833685, "train/adv_std": 0.02686917476596371, "train/cont_avg": 0.9982799899193548, "train/cont_loss_mean": 0.0011449927167751456, "train/cont_loss_std": 0.02681893370169394, "train/cont_neg_acc": 0.8262626284902747, "train/cont_neg_loss": 0.4605400705853147, "train/cont_pos_acc": 0.9998674104290624, "train/cont_pos_loss": 0.0004561239061382777, "train/cont_pred": 0.9982877323704381, "train/cont_rate": 0.9982799899193548, "train/dyn_loss_mean": 2.8518268492914016, "train/dyn_loss_std": 5.7554067242530085, "train/extr_critic_critic_opt_grad_norm": 1.3754881274315618, "train/extr_critic_critic_opt_grad_steps": 51300.0, "train/extr_critic_critic_opt_loss": 1.509129358107044, "train/extr_critic_mag": 306.50511002079134, "train/extr_critic_max": 306.50511002079134, "train/extr_critic_mean": 112.31591585220829, "train/extr_critic_min": 0.12124397908487627, "train/extr_critic_std": 77.26420480051348, "train/extr_return_normed_mag": 1.3334095035829852, "train/extr_return_normed_max": 1.3334095035829852, "train/extr_return_normed_mean": 0.43611294857917293, "train/extr_return_normed_min": -0.018102120319681784, "train/extr_return_normed_std": 0.31259026190926953, "train/extr_return_rate": 0.9615722056358091, "train/extr_return_raw_mag": 335.0805916078629, "train/extr_return_raw_max": 335.0805916078629, "train/extr_return_raw_mean": 112.78823941138482, "train/extr_return_raw_min": 0.23012259223483383, "train/extr_return_raw_std": 77.4840335969002, "train/extr_reward_mag": 53.556425143826395, "train/extr_reward_max": 53.556425143826395, "train/extr_reward_mean": 0.7707666664354262, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.98137223182186, "train/image_loss_mean": 1.2736647194431674, "train/image_loss_std": 0.943402087688446, "train/model_loss_mean": 3.046242658553585, "train/model_loss_std": 4.078238342654321, "train/model_opt_grad_norm": 11.389956385089505, "train/model_opt_grad_steps": 51300.0, "train/model_opt_loss": 3.046242658553585, "train/policy_entropy_mag": 2.6609452509110976, "train/policy_entropy_max": 2.6609452509110976, "train/policy_entropy_mean": 0.9637111717654813, "train/policy_entropy_min": 0.08019872711550805, "train/policy_entropy_std": 0.7616082837504725, "train/policy_logprob_mag": 7.495499198667464, "train/policy_logprob_max": -0.009490417310547445, "train/policy_logprob_mean": -0.9651457528914175, "train/policy_logprob_min": -7.495499198667464, "train/policy_logprob_std": 1.3034341427587695, "train/policy_randomness_mag": 0.9206238950452497, "train/policy_randomness_max": 0.9206238950452497, "train/policy_randomness_mean": 0.3334211896504125, "train/policy_randomness_min": 0.027746855852104003, "train/policy_randomness_std": 0.2634983857793193, "train/post_ent_mag": 59.55119665822675, "train/post_ent_max": 59.55119665822675, "train/post_ent_mean": 42.822294395200664, "train/post_ent_min": 16.861901295569634, "train/post_ent_std": 4.386998565735356, "train/prior_ent_mag": 80.42676485123172, "train/prior_ent_max": 80.42676485123172, "train/prior_ent_mean": 45.692344985469695, "train/prior_ent_min": 20.926711611593923, "train/prior_ent_std": 6.275987086757537, "train/rep_loss_mean": 2.8518268492914016, "train/rep_loss_std": 5.7554067242530085, "train/reward_avg": 0.8660534274193549, "train/reward_loss_mean": 0.06033683988836504, "train/reward_loss_std": 0.23880097529580516, "train/reward_max_data": 62.58064516129032, "train/reward_max_pred": 29.093653980378182, "train/reward_neg_acc": 0.9765793488871667, "train/reward_neg_loss": 0.007308529396992057, "train/reward_pos_acc": 0.9933263271085677, "train/reward_pos_loss": 0.6636584554949114, "train/reward_pred": 0.7846113824075268, "train/reward_rate": 0.08112399193548388, "train_stats/mean_log_entropy": 0.9170776605606079, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0012058359570801258, "report/cont_loss_std": 0.0312742181122303, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.5027208924293518, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00022439754684455693, "report/cont_pred": 0.9984583258628845, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.074793577194214, "report/dyn_loss_std": 5.741001129150391, "report/image_loss_mean": 1.2966794967651367, "report/image_loss_std": 1.0206975936889648, "report/model_loss_mean": 3.2088990211486816, "report/model_loss_std": 4.121203422546387, "report/post_ent_mag": 59.86511993408203, "report/post_ent_max": 59.86511993408203, "report/post_ent_mean": 42.46221160888672, "report/post_ent_min": 16.83722496032715, "report/post_ent_std": 4.274673938751221, "report/prior_ent_mag": 80.03166198730469, "report/prior_ent_max": 80.03166198730469, "report/prior_ent_mean": 45.69044876098633, "report/prior_ent_min": 18.703662872314453, "report/prior_ent_std": 6.43607759475708, "report/rep_loss_mean": 3.074793577194214, "report/rep_loss_std": 5.741001129150391, "report/reward_avg": 0.869140625, "report/reward_loss_mean": 0.06613726168870926, "report/reward_loss_std": 0.2458055168390274, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.995038986206055, "report/reward_neg_acc": 0.9743863344192505, "report/reward_neg_loss": 0.010616364888846874, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6641036868095398, "report/reward_pred": 0.804618775844574, "report/reward_rate": 0.0849609375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00022853219707030803, "eval/cont_loss_std": 0.006940116640180349, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.22213132679462433, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1618433745752554e-05, "eval/cont_pred": 0.9992064237594604, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 17.24647331237793, "eval/dyn_loss_std": 10.692091941833496, "eval/image_loss_mean": 5.437105178833008, "eval/image_loss_std": 2.989598512649536, "eval/model_loss_mean": 16.220962524414062, "eval/model_loss_std": 8.823441505432129, "eval/post_ent_mag": 59.383056640625, "eval/post_ent_max": 59.383056640625, "eval/post_ent_mean": 43.642974853515625, "eval/post_ent_min": 28.711383819580078, "eval/post_ent_std": 4.659483909606934, "eval/prior_ent_mag": 80.03166198730469, "eval/prior_ent_max": 80.03166198730469, "eval/prior_ent_mean": 49.491397857666016, "eval/prior_ent_min": 32.548099517822266, "eval/prior_ent_std": 5.808766841888428, "eval/rep_loss_mean": 17.24647331237793, "eval/rep_loss_std": 10.692091941833496, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.4357445538043976, "eval/reward_loss_std": 2.7677624225616455, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.80111026763916, "eval/reward_neg_acc": 0.9739478826522827, "eval/reward_neg_loss": 0.02435234561562538, "eval/reward_pos_acc": 0.03846153989434242, "eval/reward_pos_loss": 16.226877212524414, "eval/reward_pred": 0.07441036403179169, "eval/reward_rate": 0.025390625, "replay/size": 84606.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.696044082937697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3449020866897406e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.086162567138672e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1381788253784, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 388.91930961608887, "timer/replay._sample_frac": 1.2958008579187243, "timer/replay._sample_avg": 0.015722805207636192, "timer/replay._sample_min": 0.0004894733428955078, "timer/replay._sample_max": 0.2152242660522461, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.711930274963379, "timer/env.step_frac": 0.022362800698102477, "timer/env.step_avg": 0.004341481419769326, "timer/env.step_min": 0.0022258758544921875, "timer/env.step_max": 0.030972003936767578, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.00999975204468, "timer/agent.policy_frac": 0.3698629750686624, "timer/agent.policy_avg": 0.07180465701943381, "timer/agent.policy_min": 0.0032172203063964844, "timer/agent.policy_max": 0.1032874584197998, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15412282943725586, "timer/dataset_train_frac": 0.0005135062458246112, "timer/dataset_train_avg": 9.969135151180845e-05, "timer/dataset_train_min": 6.341934204101562e-05, "timer/dataset_train_max": 0.0019922256469726562, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.0399935245514, "timer/agent.train_frac": 0.6031888186736856, "timer/agent.train_avg": 0.1171021950352855, "timer/agent.train_min": 0.10310649871826172, "timer/agent.train_max": 0.38886547088623047, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2716064453125, "timer/agent.report_frac": 0.0009049380068055977, "timer/agent.report_avg": 0.13580322265625, "timer/agent.report_min": 0.10736250877380371, "timer/agent.report_max": 0.1642439365386963, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.654594421386719e-05, "timer/dataset_eval_frac": 2.883536661432865e-07, "timer/dataset_eval_avg": 8.654594421386719e-05, "timer/dataset_eval_min": 8.654594421386719e-05, "timer/dataset_eval_max": 8.654594421386719e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.0973963737487793, "timer/agent.save_frac": 0.00032450511337794483, "timer/agent.save_avg": 0.0973963737487793, "timer/agent.save_min": 0.0973963737487793, "timer/agent.save_max": 0.0973963737487793, "fps": 20.60224974319942}
{"step": 212732, "episode/length": 582.0, "episode/score": 560.0, "episode/reward_rate": 0.09605488850771869}
{"step": 214816, "episode/length": 520.0, "episode/score": 500.0, "episode/reward_rate": 0.09404990403071017}
{"step": 216656, "episode/length": 459.0, "episode/score": 560.0, "episode/reward_rate": 0.11956521739130435}
{"step": 218328, "episode/length": 417.0, "episode/score": 470.0, "episode/reward_rate": 0.11004784688995216}
{"step": 218880, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.45549080141129, "train/action_min": 0.0, "train/action_std": 4.112250957181377, "train/actor_opt_grad_norm": 0.006623624352317664, "train/actor_opt_grad_steps": 52850.0, "train/actor_opt_loss": 0.0005679059329674102, "train/adv_mag": 0.5411135610072844, "train/adv_max": 0.5149138854395958, "train/adv_mean": 0.0018766208810824714, "train/adv_min": -0.30903507076924847, "train/adv_std": 0.027682968793857482, "train/cont_avg": 0.9985068044354839, "train/cont_loss_mean": 0.0008021573246929114, "train/cont_loss_std": 0.019003995427582625, "train/cont_neg_acc": 0.8750000014420478, "train/cont_neg_loss": 0.32930608138022144, "train/cont_pos_acc": 0.9998863108696476, "train/cont_pos_loss": 0.000356501515758161, "train/cont_pred": 0.9984665220783603, "train/cont_rate": 0.9985068044354839, "train/dyn_loss_mean": 2.865961946979646, "train/dyn_loss_std": 5.7504288027363435, "train/extr_critic_critic_opt_grad_norm": 1.391626529155239, "train/extr_critic_critic_opt_grad_steps": 52850.0, "train/extr_critic_critic_opt_loss": 1.4981820183415566, "train/extr_critic_mag": 306.5601871613533, "train/extr_critic_max": 306.5601871613533, "train/extr_critic_mean": 113.30122710197203, "train/extr_critic_min": 0.356059685830147, "train/extr_critic_std": 76.14879071635585, "train/extr_return_normed_mag": 1.324982343566033, "train/extr_return_normed_max": 1.324982343566033, "train/extr_return_normed_mean": 0.43709176125064975, "train/extr_return_normed_min": -0.015753279199763652, "train/extr_return_normed_std": 0.30600864781487375, "train/extr_return_rate": 0.9593788289254711, "train/extr_return_raw_mag": 336.1040535219254, "train/extr_return_raw_max": 336.1040535219254, "train/extr_return_raw_mean": 113.77141487367692, "train/extr_return_raw_min": 0.46662346807518795, "train/extr_return_raw_std": 76.58115108859154, "train/extr_reward_mag": 45.798506792130006, "train/extr_reward_max": 45.798506792130006, "train/extr_reward_mean": 0.7572014493326987, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.969908050567873, "train/image_loss_mean": 1.2708106798510397, "train/image_loss_std": 0.9129172117479386, "train/model_loss_mean": 3.0503757338370048, "train/model_loss_std": 4.0499060707707555, "train/model_opt_grad_norm": 11.59937478342364, "train/model_opt_grad_steps": 52850.0, "train/model_opt_loss": 3.0503757338370048, "train/policy_entropy_mag": 2.6510174212917206, "train/policy_entropy_max": 2.6510174212917206, "train/policy_entropy_mean": 0.9642472424814778, "train/policy_entropy_min": 0.08019791952063961, "train/policy_entropy_std": 0.7487416694241186, "train/policy_logprob_mag": 7.495494544121527, "train/policy_logprob_max": -0.009490298473786922, "train/policy_logprob_mean": -0.9649762503562435, "train/policy_logprob_min": -7.495494544121527, "train/policy_logprob_std": 1.3028974625372118, "train/policy_randomness_mag": 0.9171891024035792, "train/policy_randomness_max": 0.9171891024035792, "train/policy_randomness_mean": 0.33360665382877475, "train/policy_randomness_min": 0.02774657656348521, "train/policy_randomness_std": 0.25904684326341076, "train/post_ent_mag": 59.610731998566656, "train/post_ent_max": 59.610731998566656, "train/post_ent_mean": 42.794095734627014, "train/post_ent_min": 16.680228645570818, "train/post_ent_std": 4.403823675647859, "train/prior_ent_mag": 80.73363258607925, "train/prior_ent_max": 80.73363258607925, "train/prior_ent_mean": 45.66500642838017, "train/prior_ent_min": 20.506694953672348, "train/prior_ent_std": 6.306422510454731, "train/rep_loss_mean": 2.865961946979646, "train/rep_loss_std": 5.7504288027363435, "train/reward_avg": 0.8319682459677419, "train/reward_loss_mean": 0.05918574532674205, "train/reward_loss_std": 0.24105733527291207, "train/reward_max_data": 49.483870967741936, "train/reward_max_pred": 31.52572834261002, "train/reward_neg_acc": 0.9776076247615199, "train/reward_neg_loss": 0.007551184421660559, "train/reward_pos_acc": 0.9918586254119873, "train/reward_pos_loss": 0.6615505545370041, "train/reward_pred": 0.766473074113169, "train/reward_rate": 0.07905745967741935, "train_stats/mean_log_entropy": 0.8559756428003311, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.9772680388996378e-05, "report/cont_loss_std": 0.00038975279312580824, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009965122677385807, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0050931450678036e-05, "report/cont_pred": 0.9990230798721313, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.815950393676758, "report/dyn_loss_std": 5.784489154815674, "report/image_loss_mean": 1.1749407052993774, "report/image_loss_std": 0.8169102072715759, "report/model_loss_mean": 2.9247589111328125, "report/model_loss_std": 4.092116355895996, "report/post_ent_mag": 60.20951843261719, "report/post_ent_max": 60.20951843261719, "report/post_ent_mean": 42.607948303222656, "report/post_ent_min": 14.228883743286133, "report/post_ent_std": 4.7853264808654785, "report/prior_ent_mag": 80.83698272705078, "report/prior_ent_max": 80.83698272705078, "report/prior_ent_mean": 45.489009857177734, "report/prior_ent_min": 19.17645835876465, "report/prior_ent_std": 6.582856178283691, "report/rep_loss_mean": 2.815950393676758, "report/rep_loss_std": 5.784489154815674, "report/reward_avg": 0.7421875, "report/reward_loss_mean": 0.0602278932929039, "report/reward_loss_std": 0.249640554189682, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.994293212890625, "report/reward_neg_acc": 0.9684543013572693, "report/reward_neg_loss": 0.010687734000384808, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7056071758270264, "report/reward_pred": 0.6875321865081787, "report/reward_rate": 0.0712890625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.1247771908529103e-05, "eval/cont_loss_std": 0.0003179706691298634, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1247771908529103e-05, "eval/cont_pred": 0.9999887943267822, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.202409744262695, "eval/dyn_loss_std": 10.791590690612793, "eval/image_loss_mean": 4.785271644592285, "eval/image_loss_std": 2.900787115097046, "eval/model_loss_mean": 15.152158737182617, "eval/model_loss_std": 9.370613098144531, "eval/post_ent_mag": 61.13665008544922, "eval/post_ent_max": 61.13665008544922, "eval/post_ent_mean": 42.63956069946289, "eval/post_ent_min": 28.202327728271484, "eval/post_ent_std": 3.99760365486145, "eval/prior_ent_mag": 80.83698272705078, "eval/prior_ent_max": 80.83698272705078, "eval/prior_ent_mean": 47.883792877197266, "eval/prior_ent_min": 30.246212005615234, "eval/prior_ent_std": 6.095618724822998, "eval/rep_loss_mean": 16.202409744262695, "eval/rep_loss_std": 10.791590690612793, "eval/reward_avg": 0.380859375, "eval/reward_loss_mean": 0.6454299688339233, "eval/reward_loss_std": 3.272380828857422, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003011703491211, "eval/reward_neg_acc": 0.9340101480484009, "eval/reward_neg_loss": 0.08920122683048248, "eval/reward_pos_acc": 0.10256410390138626, "eval/reward_pos_loss": 14.693769454956055, "eval/reward_pred": 0.20236095786094666, "eval/reward_rate": 0.0380859375, "replay/size": 86151.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 5.02577105772148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3764332799078192e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0116567611694336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.92767000198364, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 394.49252343177795, "timer/replay._sample_frac": 1.315292195045455, "timer/replay._sample_avg": 0.015958435413906874, "timer/replay._sample_min": 0.00046825408935546875, "timer/replay._sample_max": 0.04558873176574707, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.9040985107421875, "timer/env.step_frac": 0.023019211634246767, "timer/env.step_avg": 0.004468672175237662, "timer/env.step_min": 0.0021810531616210938, "timer/env.step_max": 0.03346538543701172, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 110.70694184303284, "timer/agent.policy_frac": 0.36911213240945945, "timer/agent.policy_avg": 0.07165497853917983, "timer/agent.policy_min": 0.0029938220977783203, "timer/agent.policy_max": 0.08696818351745605, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15641403198242188, "timer/dataset_train_frac": 0.0005215058416630496, "timer/dataset_train_avg": 0.00010123885565205299, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.00021004676818847656, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.97252416610718, "timer/agent.train_frac": 0.603387223876044, "timer/agent.train_avg": 0.11713431984861306, "timer/agent.train_min": 0.10246920585632324, "timer/agent.train_max": 0.20250749588012695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19836640357971191, "timer/agent.report_frac": 0.0006613808041732194, "timer/agent.report_avg": 0.09918320178985596, "timer/agent.report_min": 0.09868717193603516, "timer/agent.report_max": 0.09967923164367676, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.887580871582031e-05, "timer/dataset_eval_frac": 1.6295865171591892e-07, "timer/dataset_eval_avg": 4.887580871582031e-05, "timer/dataset_eval_min": 4.887580871582031e-05, "timer/dataset_eval_max": 4.887580871582031e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.60351960288016}
{"step": 220156, "episode/length": 456.0, "episode/score": 500.0, "episode/reward_rate": 0.10940919037199125}
{"step": 223508, "episode/length": 837.0, "episode/score": 1750.0, "episode/reward_rate": 0.08949880668257756}
{"step": 225068, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.251911906452921, "train/action_min": 0.0, "train/action_std": 4.138846101698937, "train/actor_opt_grad_norm": 0.006309770056735966, "train/actor_opt_grad_steps": 54395.0, "train/actor_opt_loss": 0.0006056987338572024, "train/adv_mag": 0.5425017590259577, "train/adv_max": 0.5250326423095418, "train/adv_mean": 0.001806588603299192, "train/adv_min": -0.30991893411650284, "train/adv_std": 0.02658393102177939, "train/cont_avg": 0.9982878449675324, "train/cont_loss_mean": 0.001067390761273023, "train/cont_loss_std": 0.025498600235914784, "train/cont_neg_acc": 0.8413385845075442, "train/cont_neg_loss": 0.3889647376137844, "train/cont_pos_acc": 0.9998856043660795, "train/cont_pos_loss": 0.00033787429527297843, "train/cont_pred": 0.9983596058634968, "train/cont_rate": 0.9982878449675324, "train/dyn_loss_mean": 2.890988527954399, "train/dyn_loss_std": 5.816415560709966, "train/extr_critic_critic_opt_grad_norm": 1.4243592263816238, "train/extr_critic_critic_opt_grad_steps": 54395.0, "train/extr_critic_critic_opt_loss": 1.5107574679634788, "train/extr_critic_mag": 309.3109448915952, "train/extr_critic_max": 309.3109448915952, "train/extr_critic_mean": 114.22302201506379, "train/extr_critic_min": 0.10267223785449932, "train/extr_critic_std": 77.40908810999487, "train/extr_return_normed_mag": 1.299525883677718, "train/extr_return_normed_max": 1.299525883677718, "train/extr_return_normed_mean": 0.4364169777987839, "train/extr_return_normed_min": -0.018044409553774378, "train/extr_return_normed_std": 0.3077113622581804, "train/extr_return_rate": 0.9551792117682371, "train/extr_return_raw_mag": 332.3087473287211, "train/extr_return_raw_max": 332.3087473287211, "train/extr_return_raw_mean": 114.67847095836292, "train/extr_return_raw_min": 0.08352188272749425, "train/extr_return_raw_std": 77.57941751356249, "train/extr_reward_mag": 50.4211648841957, "train/extr_reward_max": 50.4211648841957, "train/extr_reward_mean": 0.768192663982317, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.9350900518429746, "train/image_loss_mean": 1.2538146926211071, "train/image_loss_std": 0.9407523649853545, "train/model_loss_mean": 3.0509210871411607, "train/model_loss_std": 4.119258872874371, "train/model_opt_grad_norm": 11.340478649387112, "train/model_opt_grad_steps": 54395.0, "train/model_opt_loss": 3.0509210871411607, "train/policy_entropy_mag": 2.646548381099453, "train/policy_entropy_max": 2.646548381099453, "train/policy_entropy_mean": 0.9531706815416162, "train/policy_entropy_min": 0.0801962014142569, "train/policy_entropy_std": 0.7467163290296283, "train/policy_logprob_mag": 7.495500781319358, "train/policy_logprob_max": -0.009490074027426444, "train/policy_logprob_mean": -0.9536605666984211, "train/policy_logprob_min": -7.495500781319358, "train/policy_logprob_std": 1.3001955732122643, "train/policy_randomness_mag": 0.9156429187043921, "train/policy_randomness_max": 0.9156429187043921, "train/policy_randomness_mean": 0.3297744301425946, "train/policy_randomness_min": 0.027745982148237043, "train/policy_randomness_std": 0.25834612151632064, "train/post_ent_mag": 60.25238596928584, "train/post_ent_max": 60.25238596928584, "train/post_ent_mean": 42.81288023118849, "train/post_ent_min": 15.738004684448242, "train/post_ent_std": 4.533556671885701, "train/prior_ent_mag": 81.04849010318905, "train/prior_ent_max": 81.04849010318905, "train/prior_ent_mean": 45.716199924419456, "train/prior_ent_min": 19.48423311307833, "train/prior_ent_std": 6.431802108690336, "train/rep_loss_mean": 2.890988527954399, "train/rep_loss_std": 5.816415560709966, "train/reward_avg": 0.8674918831168831, "train/reward_loss_mean": 0.06144590136389454, "train/reward_loss_std": 0.24842561418553452, "train/reward_max_data": 63.83116883116883, "train/reward_max_pred": 38.32658663043728, "train/reward_neg_acc": 0.9758567376570269, "train/reward_neg_loss": 0.0077439969263414475, "train/reward_pos_acc": 0.9918750296165417, "train/reward_pos_loss": 0.6744544258365384, "train/reward_pred": 0.7889284661837986, "train/reward_rate": 0.0807312804383117, "train_stats/mean_log_entropy": 0.950919896364212, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.000741691910661757, "report/cont_loss_std": 0.014669098891317844, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.20329128205776215, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014654136612080038, "report/cont_pred": 0.997428297996521, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.740365505218506, "report/dyn_loss_std": 5.483624458312988, "report/image_loss_mean": 1.099184274673462, "report/image_loss_std": 0.8441791534423828, "report/model_loss_mean": 2.7999401092529297, "report/model_loss_std": 3.8224844932556152, "report/post_ent_mag": 61.315589904785156, "report/post_ent_max": 61.315589904785156, "report/post_ent_mean": 43.36420822143555, "report/post_ent_min": 14.776651382446289, "report/post_ent_std": 4.717023849487305, "report/prior_ent_mag": 81.52668762207031, "report/prior_ent_max": 81.52668762207031, "report/prior_ent_mean": 46.10211181640625, "report/prior_ent_min": 19.20854377746582, "report/prior_ent_std": 6.7035746574401855, "report/rep_loss_mean": 2.740365505218506, "report/rep_loss_std": 5.483624458312988, "report/reward_avg": 0.83984375, "report/reward_loss_mean": 0.055794794112443924, "report/reward_loss_std": 0.2015364021062851, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.81757164001465, "report/reward_neg_acc": 0.9787007570266724, "report/reward_neg_loss": 0.005279043223708868, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6138452291488647, "report/reward_pred": 0.7872788906097412, "report/reward_rate": 0.0830078125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.005818749312311411, "eval/cont_loss_std": 0.14039160311222076, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.963994026184082, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.9756933145108633e-05, "eval/cont_pred": 0.9997951984405518, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.722774505615234, "eval/dyn_loss_std": 9.491897583007812, "eval/image_loss_mean": 4.443692207336426, "eval/image_loss_std": 2.761930465698242, "eval/model_loss_mean": 13.24354362487793, "eval/model_loss_std": 8.378226280212402, "eval/post_ent_mag": 61.200523376464844, "eval/post_ent_max": 61.200523376464844, "eval/post_ent_mean": 43.674652099609375, "eval/post_ent_min": 31.182065963745117, "eval/post_ent_std": 4.344618797302246, "eval/prior_ent_mag": 81.52668762207031, "eval/prior_ent_max": 81.52668762207031, "eval/prior_ent_mean": 48.315582275390625, "eval/prior_ent_min": 32.27851104736328, "eval/prior_ent_std": 6.012453556060791, "eval/rep_loss_mean": 13.722774505615234, "eval/rep_loss_std": 9.491897583007812, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5603682994842529, "eval/reward_loss_std": 3.1387157440185547, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001240730285645, "eval/reward_neg_acc": 0.9605263471603394, "eval/reward_neg_loss": 0.058280687779188156, "eval/reward_pos_acc": 0.1111111119389534, "eval/reward_pos_loss": 14.339882850646973, "eval/reward_pred": 0.1170928031206131, "eval/reward_rate": 0.03515625, "replay/size": 87698.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.008639561875682e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492052679918778e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0799357891083, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 388.9825963973999, "timer/replay._sample_frac": 1.2962632619022256, "timer/replay._sample_avg": 0.015715198626268582, "timer/replay._sample_min": 0.0005581378936767578, "timer/replay._sample_max": 0.0418086051940918, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.726478576660156, "timer/env.step_frac": 0.02241562255394318, "timer/env.step_avg": 0.004348079235074439, "timer/env.step_min": 0.0023660659790039062, "timer/env.step_max": 0.034240007400512695, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.05510973930359, "timer/agent.policy_frac": 0.3700850889855944, "timer/agent.policy_avg": 0.07178740125358991, "timer/agent.policy_min": 0.002991914749145508, "timer/agent.policy_max": 0.08627963066101074, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1567060947418213, "timer/dataset_train_frac": 0.0005222145037112778, "timer/dataset_train_avg": 0.00010129676453899243, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.0002605915069580078, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.85134744644165, "timer/agent.train_frac": 0.602677239885646, "timer/agent.train_avg": 0.11690455555684658, "timer/agent.train_min": 0.10322380065917969, "timer/agent.train_max": 0.20403552055358887, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2653522491455078, "timer/agent.report_frac": 0.0008842718805831571, "timer/agent.report_avg": 0.1326761245727539, "timer/agent.report_min": 0.10237455368041992, "timer/agent.report_max": 0.1629776954650879, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.082389831542969e-05, "timer/dataset_eval_frac": 2.693412277061787e-07, "timer/dataset_eval_avg": 8.082389831542969e-05, "timer/dataset_eval_min": 8.082389831542969e-05, "timer/dataset_eval_max": 8.082389831542969e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.619999394040537}
{"step": 225396, "episode/length": 471.0, "episode/score": 530.0, "episode/reward_rate": 0.11016949152542373}
{"step": 226980, "episode/length": 395.0, "episode/score": 990.0, "episode/reward_rate": 0.12626262626262627}
{"step": 228860, "episode/length": 469.0, "episode/score": 500.0, "episode/reward_rate": 0.10425531914893617}
{"step": 231256, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.969388309601815, "train/action_min": 0.0, "train/action_std": 4.173976047577397, "train/actor_opt_grad_norm": 0.006306828884407878, "train/actor_opt_grad_steps": 55940.0, "train/actor_opt_loss": 0.000452451321560206, "train/adv_mag": 0.5136417338925023, "train/adv_max": 0.48982579900372414, "train/adv_mean": 0.0018271809891801593, "train/adv_min": -0.2939763007144774, "train/adv_std": 0.0271013580262661, "train/cont_avg": 0.9982673891129032, "train/cont_loss_mean": 0.0009642939841744501, "train/cont_loss_std": 0.023411518819745337, "train/cont_neg_acc": 0.8847435909968157, "train/cont_neg_loss": 0.29325211742515633, "train/cont_pos_acc": 0.9998736946813522, "train/cont_pos_loss": 0.0004326090663014274, "train/cont_pred": 0.9982521699320885, "train/cont_rate": 0.9982673891129032, "train/dyn_loss_mean": 2.8616852221950406, "train/dyn_loss_std": 5.804159407461843, "train/extr_critic_critic_opt_grad_norm": 1.4024288742772995, "train/extr_critic_critic_opt_grad_steps": 55940.0, "train/extr_critic_critic_opt_loss": 1.5176688048147386, "train/extr_critic_mag": 309.5416813019783, "train/extr_critic_max": 309.5416813019783, "train/extr_critic_mean": 113.12755186019405, "train/extr_critic_min": 0.11386449413914834, "train/extr_critic_std": 79.06563602570564, "train/extr_return_normed_mag": 1.3189025740469655, "train/extr_return_normed_max": 1.3189025740469655, "train/extr_return_normed_mean": 0.4309865020936535, "train/extr_return_normed_min": -0.01749120033195903, "train/extr_return_normed_std": 0.3147165709926236, "train/extr_return_rate": 0.9486043010988543, "train/extr_return_raw_mag": 338.1777842860068, "train/extr_return_raw_max": 338.1777842860068, "train/extr_return_raw_mean": 113.58943097514491, "train/extr_return_raw_min": 0.08641706774341723, "train/extr_return_raw_std": 79.65114487678774, "train/extr_reward_mag": 35.91295556714458, "train/extr_reward_max": 35.91295556714458, "train/extr_reward_mean": 0.7528279708277794, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.9061355167819607, "train/image_loss_mean": 1.2568428454860565, "train/image_loss_std": 0.9286146806132409, "train/model_loss_mean": 3.0341146084570116, "train/model_loss_std": 4.101419699576593, "train/model_opt_grad_norm": 11.348744429311445, "train/model_opt_grad_steps": 55940.0, "train/model_opt_loss": 3.0341146084570116, "train/policy_entropy_mag": 2.647552542532644, "train/policy_entropy_max": 2.647552542532644, "train/policy_entropy_mean": 0.9715983356198957, "train/policy_entropy_min": 0.0801951880897245, "train/policy_entropy_std": 0.7487309036716339, "train/policy_logprob_mag": 7.495476104367164, "train/policy_logprob_max": -0.009489980490217285, "train/policy_logprob_mean": -0.9709009293586978, "train/policy_logprob_min": -7.495476104367164, "train/policy_logprob_std": 1.3048327084510558, "train/policy_randomness_mag": 0.9159903353260409, "train/policy_randomness_max": 0.9159903353260409, "train/policy_randomness_mean": 0.33614996267903235, "train/policy_randomness_min": 0.02774563160154127, "train/policy_randomness_std": 0.25904311672333746, "train/post_ent_mag": 60.65687270625945, "train/post_ent_max": 60.65687270625945, "train/post_ent_mean": 42.79481821367818, "train/post_ent_min": 15.719424967611989, "train/post_ent_std": 4.571714822707638, "train/prior_ent_mag": 81.33982361824282, "train/prior_ent_max": 81.33982361824282, "train/prior_ent_mean": 45.70104237218057, "train/prior_ent_min": 19.532195521939187, "train/prior_ent_std": 6.489805329230524, "train/rep_loss_mean": 2.8616852221950406, "train/rep_loss_std": 5.804159407461843, "train/reward_avg": 0.8387726814516129, "train/reward_loss_mean": 0.05929633254005063, "train/reward_loss_std": 0.23345488511746929, "train/reward_max_data": 47.54838709677419, "train/reward_max_pred": 26.522876204213787, "train/reward_neg_acc": 0.9756019130829842, "train/reward_neg_loss": 0.007501648428038724, "train/reward_pos_acc": 0.9938314949312518, "train/reward_pos_loss": 0.6593904995149181, "train/reward_pred": 0.771781870049815, "train/reward_rate": 0.07981350806451613, "train_stats/mean_log_entropy": 0.8372305830319723, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00025095089222304523, "report/cont_loss_std": 0.004863225854933262, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.032089296728372574, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00018864490266423672, "report/cont_pred": 0.9979287981987, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.8274412155151367, "report/dyn_loss_std": 5.739953517913818, "report/image_loss_mean": 1.2520086765289307, "report/image_loss_std": 0.850825309753418, "report/model_loss_mean": 3.004852771759033, "report/model_loss_std": 3.9444973468780518, "report/post_ent_mag": 60.64939498901367, "report/post_ent_max": 60.64939498901367, "report/post_ent_mean": 43.197471618652344, "report/post_ent_min": 10.426286697387695, "report/post_ent_std": 4.781554222106934, "report/prior_ent_mag": 81.64220428466797, "report/prior_ent_max": 81.64220428466797, "report/prior_ent_mean": 45.98918533325195, "report/prior_ent_min": 14.696540832519531, "report/prior_ent_std": 6.538602352142334, "report/rep_loss_mean": 2.8274412155151367, "report/rep_loss_std": 5.739953517913818, "report/reward_avg": 1.171875, "report/reward_loss_mean": 0.05612840875983238, "report/reward_loss_std": 0.24651342630386353, "report/reward_max_data": 500.0, "report/reward_max_pred": 489.51580810546875, "report/reward_neg_acc": 0.9769149422645569, "report/reward_neg_loss": 0.008638500235974789, "report/reward_pos_acc": 0.98591548204422, "report/reward_pos_loss": 0.6935633420944214, "report/reward_pred": 1.1026766300201416, "report/reward_rate": 0.0693359375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.2338207397988299e-06, "eval/cont_loss_std": 3.098989691352472e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2338207397988299e-06, "eval/cont_pred": 0.9999988079071045, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.840660095214844, "eval/dyn_loss_std": 12.282718658447266, "eval/image_loss_mean": 4.55825138092041, "eval/image_loss_std": 2.930501937866211, "eval/model_loss_mean": 15.170225143432617, "eval/model_loss_std": 9.811150550842285, "eval/post_ent_mag": 57.922569274902344, "eval/post_ent_max": 57.922569274902344, "eval/post_ent_mean": 43.33448028564453, "eval/post_ent_min": 30.06839370727539, "eval/post_ent_std": 4.579843997955322, "eval/prior_ent_mag": 81.64220428466797, "eval/prior_ent_max": 81.64220428466797, "eval/prior_ent_mean": 48.655052185058594, "eval/prior_ent_min": 32.20307159423828, "eval/prior_ent_std": 6.076033115386963, "eval/rep_loss_mean": 16.840660095214844, "eval/rep_loss_std": 12.282718658447266, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.5075764656066895, "eval/reward_loss_std": 2.5860533714294434, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007991790771484, "eval/reward_neg_acc": 0.9373103380203247, "eval/reward_neg_loss": 0.061728399246931076, "eval/reward_pos_acc": 0.02857142873108387, "eval/reward_pos_loss": 13.10596752166748, "eval/reward_pred": 0.15575248003005981, "eval/reward_rate": 0.0341796875, "replay/size": 89245.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.007560744775675e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3679593474000364e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9073486328125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.98707604408264, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.57714462280273, "timer/replay._sample_frac": 1.3086468583903732, "timer/replay._sample_avg": 0.015860421162847558, "timer/replay._sample_min": 0.0004146099090576172, "timer/replay._sample_max": 0.08098602294921875, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.812817811965942, "timer/env.step_frac": 0.022710371066001555, "timer/env.step_avg": 0.004403889988342562, "timer/env.step_min": 0.002132415771484375, "timer/env.step_max": 0.05665755271911621, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.28228616714478, "timer/agent.policy_frac": 0.37095693466071855, "timer/agent.policy_avg": 0.07193425091605997, "timer/agent.policy_min": 0.0029048919677734375, "timer/agent.policy_max": 0.18295907974243164, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1532437801361084, "timer/dataset_train_frac": 0.0005108346071335068, "timer/dataset_train_avg": 9.905868140666347e-05, "timer/dataset_train_min": 6.079673767089844e-05, "timer/dataset_train_max": 0.00021195411682128906, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.52640438079834, "timer/agent.train_frac": 0.6017806058894026, "timer/agent.train_avg": 0.11669450832630791, "timer/agent.train_min": 0.10280084609985352, "timer/agent.train_max": 0.20430374145507812, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2627387046813965, "timer/agent.report_frac": 0.0008758334130460589, "timer/agent.report_avg": 0.13136935234069824, "timer/agent.report_min": 0.09733009338378906, "timer/agent.report_max": 0.16540861129760742, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.054473876953125e-05, "timer/dataset_eval_frac": 1.6848972107752995e-07, "timer/dataset_eval_avg": 5.054473876953125e-05, "timer/dataset_eval_min": 5.054473876953125e-05, "timer/dataset_eval_max": 5.054473876953125e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1619718074798584, "timer/agent.save_frac": 0.0005399292850071211, "timer/agent.save_avg": 0.1619718074798584, "timer/agent.save_min": 0.1619718074798584, "timer/agent.save_max": 0.1619718074798584, "fps": 20.626308904336423}
{"step": 231436, "episode/length": 643.0, "episode/score": 690.0, "episode/reward_rate": 0.10714285714285714}
{"step": 233924, "episode/length": 621.0, "episode/score": 710.0, "episode/reward_rate": 0.11254019292604502}
{"step": 235776, "episode/length": 462.0, "episode/score": 550.0, "episode/reward_rate": 0.11879049676025918}
{"step": 237436, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.066573898513596, "train/action_min": 0.0, "train/action_std": 4.134824207850865, "train/actor_opt_grad_norm": 0.005985611633929823, "train/actor_opt_grad_steps": 57485.0, "train/actor_opt_loss": 0.00030717174767433587, "train/adv_mag": 0.5345353058406285, "train/adv_max": 0.5202469537397484, "train/adv_mean": 0.0016056113134597237, "train/adv_min": -0.2960331067442894, "train/adv_std": 0.0252251748612465, "train/cont_avg": 0.9981610186688312, "train/cont_loss_mean": 0.0008587355158703991, "train/cont_loss_std": 0.020431595353057577, "train/cont_neg_acc": 0.8750608291504157, "train/cont_neg_loss": 0.2870394711620191, "train/cont_pos_acc": 0.9998855343112698, "train/cont_pos_loss": 0.0003559131973075894, "train/cont_pred": 0.998169337774252, "train/cont_rate": 0.9981610186688312, "train/dyn_loss_mean": 2.866304589556409, "train/dyn_loss_std": 5.794091952311528, "train/extr_critic_critic_opt_grad_norm": 1.3794143436016975, "train/extr_critic_critic_opt_grad_steps": 57485.0, "train/extr_critic_critic_opt_loss": 1.5000544112998169, "train/extr_critic_mag": 314.3796252956638, "train/extr_critic_max": 314.3796252956638, "train/extr_critic_mean": 114.50532244397448, "train/extr_critic_min": 0.02394966645674272, "train/extr_critic_std": 81.28502345394779, "train/extr_return_normed_mag": 1.3043826493349941, "train/extr_return_normed_max": 1.3043826493349941, "train/extr_return_normed_mean": 0.42934368415312335, "train/extr_return_normed_min": -0.015952374495856174, "train/extr_return_normed_std": 0.31631227079537005, "train/extr_return_rate": 0.9432118809842444, "train/extr_return_raw_mag": 340.4997582373681, "train/extr_return_raw_max": 340.4997582373681, "train/extr_return_raw_mean": 114.9191529410226, "train/extr_return_raw_min": 0.01698688777710172, "train/extr_return_raw_std": 81.6131319813914, "train/extr_reward_mag": 40.511925047094174, "train/extr_reward_max": 40.511925047094174, "train/extr_reward_mean": 0.7885720540176738, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.913950753676427, "train/image_loss_mean": 1.2326071560382843, "train/image_loss_std": 0.9284869862067235, "train/model_loss_mean": 3.014152983566383, "train/model_loss_std": 4.086577754516106, "train/model_opt_grad_norm": 11.099408217838832, "train/model_opt_grad_steps": 57485.0, "train/model_opt_loss": 3.014152983566383, "train/policy_entropy_mag": 2.6508542934021393, "train/policy_entropy_max": 2.6508542934021393, "train/policy_entropy_mean": 0.9587546888884012, "train/policy_entropy_min": 0.08019480772026173, "train/policy_entropy_std": 0.7404871404945076, "train/policy_logprob_mag": 7.495512188255013, "train/policy_logprob_max": -0.00948991287233574, "train/policy_logprob_mean": -0.9594727177898605, "train/policy_logprob_min": -7.495512188255013, "train/policy_logprob_std": 1.300640488599802, "train/policy_randomness_mag": 0.9171326613271391, "train/policy_randomness_max": 0.9171326613271391, "train/policy_randomness_mean": 0.3317063659816593, "train/policy_randomness_min": 0.027745499916664966, "train/policy_randomness_std": 0.2561909727655448, "train/post_ent_mag": 60.99154853820801, "train/post_ent_max": 60.99154853820801, "train/post_ent_mean": 42.808786540836486, "train/post_ent_min": 15.654994091430268, "train/post_ent_std": 4.609931063342404, "train/prior_ent_mag": 81.50582291243913, "train/prior_ent_max": 81.50582291243913, "train/prior_ent_mean": 45.69627865878019, "train/prior_ent_min": 19.68429591438987, "train/prior_ent_std": 6.527871153571389, "train/rep_loss_mean": 2.866304589556409, "train/rep_loss_std": 5.794091952311528, "train/reward_avg": 0.8896864853896104, "train/reward_loss_mean": 0.06090435915469349, "train/reward_loss_std": 0.23408534348785104, "train/reward_max_data": 66.62337662337663, "train/reward_max_pred": 35.696087310840554, "train/reward_neg_acc": 0.9756075712767515, "train/reward_neg_loss": 0.007339571988929741, "train/reward_pos_acc": 0.9941846279354839, "train/reward_pos_loss": 0.6557755706372199, "train/reward_pred": 0.8101262545043771, "train/reward_rate": 0.08303951907467533, "train_stats/mean_log_entropy": 0.8460505803426107, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.00028370623476803303, "report/cont_loss_std": 0.0039418889209628105, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01699589006602764, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.00021816826483700424, "report/cont_pred": 0.9959471821784973, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.6472957134246826, "report/dyn_loss_std": 5.493587970733643, "report/image_loss_mean": 1.0592797994613647, "report/image_loss_std": 0.8131879568099976, "report/model_loss_mean": 2.6926629543304443, "report/model_loss_std": 3.7574892044067383, "report/post_ent_mag": 61.6993408203125, "report/post_ent_max": 61.6993408203125, "report/post_ent_mean": 43.101593017578125, "report/post_ent_min": 18.051387786865234, "report/post_ent_std": 4.3429059982299805, "report/prior_ent_mag": 81.52167510986328, "report/prior_ent_max": 81.52167510986328, "report/prior_ent_mean": 45.990135192871094, "report/prior_ent_min": 29.070690155029297, "report/prior_ent_std": 6.40138578414917, "report/rep_loss_mean": 2.6472957134246826, "report/rep_loss_std": 5.493587970733643, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.044722042977809906, "report/reward_loss_std": 0.1957845240831375, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008333206176758, "report/reward_neg_acc": 0.9854319095611572, "report/reward_neg_loss": 0.007951345294713974, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6056212186813354, "report/reward_pred": 0.5968813896179199, "report/reward_rate": 0.0615234375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013407793827354908, "eval/cont_loss_std": 0.4284767210483551, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.717962265014648, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1357489711372182e-05, "eval/cont_pred": 0.9999887347221375, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.46697235107422, "eval/dyn_loss_std": 12.21127700805664, "eval/image_loss_mean": 4.771332740783691, "eval/image_loss_std": 3.2710163593292236, "eval/model_loss_mean": 15.222352027893066, "eval/model_loss_std": 10.47453498840332, "eval/post_ent_mag": 62.51958084106445, "eval/post_ent_max": 62.51958084106445, "eval/post_ent_mean": 43.15359115600586, "eval/post_ent_min": 30.60516929626465, "eval/post_ent_std": 4.148954391479492, "eval/prior_ent_mag": 81.52167510986328, "eval/prior_ent_max": 81.52167510986328, "eval/prior_ent_mean": 48.18523406982422, "eval/prior_ent_min": 31.313945770263672, "eval/prior_ent_std": 5.897465229034424, "eval/rep_loss_mean": 16.46697235107422, "eval/rep_loss_std": 12.21127700805664, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5574275255203247, "eval/reward_loss_std": 3.075139284133911, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.94478702545166, "eval/reward_neg_acc": 0.9625506401062012, "eval/reward_neg_loss": 0.04257875680923462, "eval/reward_pos_acc": 0.0833333358168602, "eval/reward_pos_loss": 14.687164306640625, "eval/reward_pred": 0.11092974990606308, "eval/reward_rate": 0.03515625, "replay/size": 90790.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.751551112696576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2313856661898418e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1209547519684, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 356.754599571228, "timer/replay._sample_frac": 1.1887027344227392, "timer/replay._sample_avg": 0.01443182037100437, "timer/replay._sample_min": 0.008145570755004883, "timer/replay._sample_max": 0.040807247161865234, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.898089170455933, "timer/env.step_frac": 0.02298436367482831, "timer/env.step_avg": 0.004464782634599309, "timer/env.step_min": 0.002871274948120117, "timer/env.step_max": 0.03340554237365723, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 110.24362373352051, "timer/agent.policy_frac": 0.36733064448842007, "timer/agent.policy_avg": 0.07135509626765081, "timer/agent.policy_min": 0.0030524730682373047, "timer/agent.policy_max": 0.0819089412689209, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.14278435707092285, "timer/dataset_train_frac": 0.0004757560403902, "timer/dataset_train_avg": 9.241705959283032e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.00019240379333496094, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 181.65673780441284, "timer/agent.train_frac": 0.6052784216768237, "timer/agent.train_avg": 0.1175771765724355, "timer/agent.train_min": 0.10445189476013184, "timer/agent.train_max": 0.20441555976867676, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2617800235748291, "timer/agent.report_frac": 0.0008722484032851831, "timer/agent.report_avg": 0.13089001178741455, "timer/agent.report_min": 0.10360097885131836, "timer/agent.report_max": 0.15817904472351074, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.6743621826171875e-05, "timer/dataset_eval_frac": 1.8906917670266313e-07, "timer/dataset_eval_avg": 5.6743621826171875e-05, "timer/dataset_eval_min": 5.6743621826171875e-05, "timer/dataset_eval_max": 5.6743621826171875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.590285107291376}
{"step": 237668, "episode/length": 472.0, "episode/score": 520.0, "episode/reward_rate": 0.10993657505285412}
{"step": 240560, "episode/length": 722.0, "episode/score": 640.0, "episode/reward_rate": 0.08852005532503458}
{"step": 242744, "episode/length": 545.0, "episode/score": 2130.0, "episode/reward_rate": 0.11721611721611722}
{"step": 243628, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.095858666204638, "train/action_min": 0.0, "train/action_std": 4.144172942253851, "train/actor_opt_grad_norm": 0.0060607728623454605, "train/actor_opt_grad_steps": 59030.0, "train/actor_opt_loss": 0.00022725647308576417, "train/adv_mag": 0.47021375433091195, "train/adv_max": 0.4532601589156735, "train/adv_mean": 0.0013302569417118642, "train/adv_min": -0.2980907718020101, "train/adv_std": 0.023250914256899586, "train/cont_avg": 0.9981665826612903, "train/cont_loss_mean": 0.0009081988981061005, "train/cont_loss_std": 0.021821827527691635, "train/cont_neg_acc": 0.8812500019283855, "train/cont_neg_loss": 0.31612407879963617, "train/cont_pos_acc": 0.9998926162719727, "train/cont_pos_loss": 0.00034340729115878014, "train/cont_pred": 0.9981690522163145, "train/cont_rate": 0.9981665826612903, "train/dyn_loss_mean": 2.8865274167829944, "train/dyn_loss_std": 5.867721659137357, "train/extr_critic_critic_opt_grad_norm": 1.397536688466226, "train/extr_critic_critic_opt_grad_steps": 59030.0, "train/extr_critic_critic_opt_loss": 1.5118838640951342, "train/extr_critic_mag": 314.2248817689957, "train/extr_critic_max": 314.2248817689957, "train/extr_critic_mean": 113.81952713997133, "train/extr_critic_min": 0.13538648390000865, "train/extr_critic_std": 80.68677855460875, "train/extr_return_normed_mag": 1.2373617583705534, "train/extr_return_normed_max": 1.2373617583705534, "train/extr_return_normed_mean": 0.4241981525574961, "train/extr_return_normed_min": -0.016625108503766597, "train/extr_return_normed_std": 0.3122534582691808, "train/extr_return_rate": 0.9501415991014049, "train/extr_return_raw_mag": 324.57357108823714, "train/extr_return_raw_max": 324.57357108823714, "train/extr_return_raw_mean": 114.16332195651147, "train/extr_return_raw_min": 0.10985466692532833, "train/extr_return_raw_std": 80.8010856628418, "train/extr_reward_mag": 38.904980407222624, "train/extr_reward_max": 38.904980407222624, "train/extr_reward_mean": 0.7512511970535402, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.6973748253237817, "train/image_loss_mean": 1.2281484230872124, "train/image_loss_std": 0.9287828829980666, "train/model_loss_mean": 3.019563361137144, "train/model_loss_std": 4.1384102052257905, "train/model_opt_grad_norm": 10.94281682352866, "train/model_opt_grad_steps": 59030.0, "train/model_opt_loss": 3.019563361137144, "train/policy_entropy_mag": 2.6514825697868103, "train/policy_entropy_max": 2.6514825697868103, "train/policy_entropy_mean": 0.9521797149412093, "train/policy_entropy_min": 0.08019443019743888, "train/policy_entropy_std": 0.7316556199904412, "train/policy_logprob_mag": 7.495513479171261, "train/policy_logprob_max": -0.00948988076659941, "train/policy_logprob_mean": -0.9531288939137612, "train/policy_logprob_min": -7.495513479171261, "train/policy_logprob_std": 1.2978500696920579, "train/policy_randomness_mag": 0.9173500334062884, "train/policy_randomness_max": 0.9173500334062884, "train/policy_randomness_mean": 0.3294315800551445, "train/policy_randomness_min": 0.02774536931707013, "train/policy_randomness_std": 0.25313547666995756, "train/post_ent_mag": 60.96970507714056, "train/post_ent_max": 60.96970507714056, "train/post_ent_mean": 42.89838126397902, "train/post_ent_min": 15.405010241846885, "train/post_ent_std": 4.656246311433853, "train/prior_ent_mag": 81.67308024744834, "train/prior_ent_max": 81.67308024744834, "train/prior_ent_mean": 45.78661528556577, "train/prior_ent_min": 19.0378666047127, "train/prior_ent_std": 6.553039009340348, "train/rep_loss_mean": 2.8865274167829944, "train/rep_loss_std": 5.867721659137357, "train/reward_avg": 0.8538936491935484, "train/reward_loss_mean": 0.05859029070744591, "train/reward_loss_std": 0.2304761449175496, "train/reward_max_data": 56.645161290322584, "train/reward_max_pred": 31.443359984121017, "train/reward_neg_acc": 0.9773748078653889, "train/reward_neg_loss": 0.006990531818836086, "train/reward_pos_acc": 0.9945693177561606, "train/reward_pos_loss": 0.6542577497420773, "train/reward_pred": 0.7763897382443951, "train/reward_rate": 0.07991431451612903, "train_stats/mean_log_entropy": 0.9623101751009623, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.887161048827693e-05, "report/cont_loss_std": 0.0006986011867411435, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0043447911739349365, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.0464721678290516e-05, "report/cont_pred": 0.9980151653289795, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.0284502506256104, "report/dyn_loss_std": 6.061262607574463, "report/image_loss_mean": 1.261322021484375, "report/image_loss_std": 1.003878116607666, "report/model_loss_mean": 3.145697832107544, "report/model_loss_std": 4.296114444732666, "report/post_ent_mag": 61.30718994140625, "report/post_ent_max": 61.30718994140625, "report/post_ent_mean": 42.84030532836914, "report/post_ent_min": 14.018887519836426, "report/post_ent_std": 4.658839702606201, "report/prior_ent_mag": 81.84688568115234, "report/prior_ent_max": 81.84688568115234, "report/prior_ent_mean": 45.65199279785156, "report/prior_ent_min": 20.47460174560547, "report/prior_ent_std": 6.415099143981934, "report/rep_loss_mean": 3.0284502506256104, "report/rep_loss_std": 6.061262607574463, "report/reward_avg": 1.005859375, "report/reward_loss_mean": 0.06725664436817169, "report/reward_loss_std": 0.23459693789482117, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.01273250579834, "report/reward_neg_acc": 0.9793702960014343, "report/reward_neg_loss": 0.004332260228693485, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6299105882644653, "report/reward_pred": 0.9581552743911743, "report/reward_rate": 0.1005859375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.006431034300476313, "eval/cont_loss_std": 0.20328326523303986, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 3.2852911949157715, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4479333913186565e-05, "eval/cont_pred": 0.9990668296813965, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 18.867633819580078, "eval/dyn_loss_std": 12.564193725585938, "eval/image_loss_mean": 5.456631660461426, "eval/image_loss_std": 3.3352441787719727, "eval/model_loss_mean": 17.219646453857422, "eval/model_loss_std": 10.185189247131348, "eval/post_ent_mag": 62.928707122802734, "eval/post_ent_max": 62.928707122802734, "eval/post_ent_mean": 44.7161979675293, "eval/post_ent_min": 30.43706512451172, "eval/post_ent_std": 4.5265960693359375, "eval/prior_ent_mag": 81.84688568115234, "eval/prior_ent_max": 81.84688568115234, "eval/prior_ent_mean": 50.02825927734375, "eval/prior_ent_min": 34.597923278808594, "eval/prior_ent_std": 6.046077728271484, "eval/rep_loss_mean": 18.867633819580078, "eval/rep_loss_std": 12.564193725585938, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.4360038936138153, "eval/reward_loss_std": 2.4199929237365723, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998433113098145, "eval/reward_neg_acc": 0.9282101988792419, "eval/reward_neg_loss": 0.06809505075216293, "eval/reward_pos_acc": 0.2571428716182709, "eval/reward_pos_loss": 10.832056999206543, "eval/reward_pred": 0.19425958395004272, "eval/reward_rate": 0.0341796875, "replay/size": 92338.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.818735196608906e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3421730015629021e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.726912498474121e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0607786178589, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 388.111704826355, "timer/replay._sample_frac": 1.2934436370327258, "timer/replay._sample_avg": 0.015669884723286297, "timer/replay._sample_min": 0.0004961490631103516, "timer/replay._sample_max": 0.045603036880493164, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.71349573135376, "timer/env.step_frac": 0.02237378627849161, "timer/env.step_avg": 0.00433688354738615, "timer/env.step_min": 0.0024530887603759766, "timer/env.step_max": 0.02798628807067871, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.28510546684265, "timer/agent.policy_frac": 0.37087521394646955, "timer/agent.policy_avg": 0.07188960301475623, "timer/agent.policy_min": 0.003148794174194336, "timer/agent.policy_max": 0.08669710159301758, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15108466148376465, "timer/dataset_train_frac": 0.000503513528758045, "timer/dataset_train_avg": 9.75999105192278e-05, "timer/dataset_train_min": 5.626678466796875e-05, "timer/dataset_train_max": 0.0001761913299560547, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.74213647842407, "timer/agent.train_frac": 0.6023517545710546, "timer/agent.train_avg": 0.11675848609717317, "timer/agent.train_min": 0.10284090042114258, "timer/agent.train_max": 0.20535635948181152, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2579782009124756, "timer/agent.report_frac": 0.0008597531543468486, "timer/agent.report_avg": 0.1289891004562378, "timer/agent.report_min": 0.0965123176574707, "timer/agent.report_max": 0.16146588325500488, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.340576171875e-05, "timer/dataset_eval_frac": 1.7798314716354408e-07, "timer/dataset_eval_avg": 5.340576171875e-05, "timer/dataset_eval_min": 5.340576171875e-05, "timer/dataset_eval_max": 5.340576171875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.634304855953584}
{"step": 245316, "episode/length": 642.0, "episode/score": 600.0, "episode/reward_rate": 0.09175738724727839}
{"step": 248520, "episode/length": 800.0, "episode/score": 820.0, "episode/reward_rate": 0.09987515605493133}
{"step": 249816, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.045266822076613, "train/action_min": 0.0, "train/action_std": 4.175965442965108, "train/actor_opt_grad_norm": 0.006129317048696741, "train/actor_opt_grad_steps": 60580.0, "train/actor_opt_loss": 0.00018055933643124937, "train/adv_mag": 0.48757194703625095, "train/adv_max": 0.4632798321785465, "train/adv_mean": 0.001340724969551018, "train/adv_min": -0.3135088768697554, "train/adv_std": 0.024472818121073707, "train/cont_avg": 0.9982169858870967, "train/cont_loss_mean": 0.0007615763061911979, "train/cont_loss_std": 0.01820257167013984, "train/cont_neg_acc": 0.9031746042153191, "train/cont_neg_loss": 0.2474626656967014, "train/cont_pos_acc": 0.9998357561326796, "train/cont_pos_loss": 0.0003639226844924792, "train/cont_pred": 0.9981410849478937, "train/cont_rate": 0.9982169858870967, "train/dyn_loss_mean": 2.917180968869117, "train/dyn_loss_std": 5.875249487353909, "train/extr_critic_critic_opt_grad_norm": 1.368416319354888, "train/extr_critic_critic_opt_grad_steps": 60580.0, "train/extr_critic_critic_opt_loss": 1.4975153423124743, "train/extr_critic_mag": 313.8485611454133, "train/extr_critic_max": 313.8485611454133, "train/extr_critic_mean": 114.80989059940461, "train/extr_critic_min": 0.10169079919015207, "train/extr_critic_std": 80.440249166181, "train/extr_return_normed_mag": 1.2628210186958313, "train/extr_return_normed_max": 1.2628210186958313, "train/extr_return_normed_mean": 0.42986254768986853, "train/extr_return_normed_min": -0.017412875157089964, "train/extr_return_normed_std": 0.3136089600862995, "train/extr_return_rate": 0.9493792472347137, "train/extr_return_raw_mag": 329.3578780635711, "train/extr_return_raw_max": 329.3578780635711, "train/extr_return_raw_mean": 115.15457202542213, "train/extr_return_raw_min": 0.14437128419353207, "train/extr_return_raw_std": 80.63714666058941, "train/extr_reward_mag": 42.380659675598146, "train/extr_reward_max": 42.380659675598146, "train/extr_reward_mean": 0.7410667882811639, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.7842802463039273, "train/image_loss_mean": 1.2356472638345535, "train/image_loss_std": 0.9408312993664896, "train/model_loss_mean": 3.046999546789354, "train/model_loss_std": 4.160035619428081, "train/model_opt_grad_norm": 11.03308525393086, "train/model_opt_grad_steps": 60580.0, "train/model_opt_loss": 3.046999546789354, "train/policy_entropy_mag": 2.647536402363931, "train/policy_entropy_max": 2.647536402363931, "train/policy_entropy_mean": 0.9574151981261468, "train/policy_entropy_min": 0.08019354550107832, "train/policy_entropy_std": 0.7329845263111976, "train/policy_logprob_mag": 7.4955147097187655, "train/policy_logprob_max": -0.009489799206776004, "train/policy_logprob_mean": -0.9563517351304331, "train/policy_logprob_min": -7.4955147097187655, "train/policy_logprob_std": 1.295647814196925, "train/policy_randomness_mag": 0.9159847513321907, "train/policy_randomness_max": 0.9159847513321907, "train/policy_randomness_mean": 0.33124293185049486, "train/policy_randomness_min": 0.027745063182327057, "train/policy_randomness_std": 0.2535952474801771, "train/post_ent_mag": 60.99700575797789, "train/post_ent_max": 60.99700575797789, "train/post_ent_mean": 42.883320888396234, "train/post_ent_min": 14.762054135722499, "train/post_ent_std": 4.733677301099224, "train/prior_ent_mag": 81.92465254260648, "train/prior_ent_max": 81.92465254260648, "train/prior_ent_mean": 45.807933831983995, "train/prior_ent_min": 18.576064165176884, "train/prior_ent_std": 6.644455279073408, "train/rep_loss_mean": 2.917180968869117, "train/rep_loss_std": 5.875249487353909, "train/reward_avg": 0.8470262096774194, "train/reward_loss_mean": 0.060282127511116765, "train/reward_loss_std": 0.2481487233792582, "train/reward_max_data": 66.45161290322581, "train/reward_max_pred": 38.743200628219114, "train/reward_neg_acc": 0.9756800078576611, "train/reward_neg_loss": 0.007699080663282544, "train/reward_pos_acc": 0.9916196907720258, "train/reward_pos_loss": 0.6824459714274252, "train/reward_pred": 0.7675185834207843, "train/reward_rate": 0.0785219254032258, "train_stats/mean_log_entropy": 1.0119837522506714, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.733483708856511e-07, "report/cont_loss_std": 9.406390745425597e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.733483708856511e-07, "report/cont_pred": 0.9999996423721313, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.5971736907958984, "report/dyn_loss_std": 5.555021286010742, "report/image_loss_mean": 1.1119269132614136, "report/image_loss_std": 0.7133618593215942, "report/model_loss_mean": 2.7115468978881836, "report/model_loss_std": 3.7968828678131104, "report/post_ent_mag": 55.891944885253906, "report/post_ent_max": 55.891944885253906, "report/post_ent_mean": 43.18115234375, "report/post_ent_min": 13.173857688903809, "report/post_ent_std": 4.597360134124756, "report/prior_ent_mag": 81.97601318359375, "report/prior_ent_max": 81.97601318359375, "report/prior_ent_mean": 45.82189178466797, "report/prior_ent_min": 15.8309326171875, "report/prior_ent_std": 6.44070291519165, "report/rep_loss_mean": 2.5971736907958984, "report/rep_loss_std": 5.555021286010742, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.04131542891263962, "report/reward_loss_std": 0.21757785975933075, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.998125076293945, "report/reward_neg_acc": 0.9854621291160583, "report/reward_neg_loss": 0.0022096747998148203, "report/reward_pos_acc": 0.9836066365242004, "report/reward_pos_loss": 0.6586735844612122, "report/reward_pred": 0.5914061069488525, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.011492692865431309, "eval/cont_loss_std": 0.3675176799297333, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 11.766313552856445, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1556695628532907e-06, "eval/cont_pred": 0.9999978542327881, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.742460250854492, "eval/dyn_loss_std": 11.575729370117188, "eval/image_loss_mean": 4.58689022064209, "eval/image_loss_std": 2.8022372722625732, "eval/model_loss_mean": 14.420921325683594, "eval/model_loss_std": 9.313050270080566, "eval/post_ent_mag": 63.49235534667969, "eval/post_ent_max": 63.49235534667969, "eval/post_ent_mean": 43.758975982666016, "eval/post_ent_min": 30.40369415283203, "eval/post_ent_std": 4.385869026184082, "eval/prior_ent_mag": 81.97601318359375, "eval/prior_ent_max": 81.97601318359375, "eval/prior_ent_mean": 48.662113189697266, "eval/prior_ent_min": 30.978120803833008, "eval/prior_ent_std": 5.927380084991455, "eval/rep_loss_mean": 15.742460250854492, "eval/rep_loss_std": 11.575729370117188, "eval/reward_avg": 0.21484375, "eval/reward_loss_mean": 0.3770626187324524, "eval/reward_loss_std": 2.4365394115448, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003016471862793, "eval/reward_neg_acc": 0.9590818285942078, "eval/reward_neg_loss": 0.050747185945510864, "eval/reward_pos_acc": 0.04545454680919647, "eval/reward_pos_loss": 15.23924732208252, "eval/reward_pred": 0.11544433981180191, "eval/reward_rate": 0.021484375, "replay/size": 93885.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.883188544817716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3487910792838395e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 4.246830940246582e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09876585006714, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.0683128833771, "timer/replay._sample_frac": 1.3064642627662755, "timer/replay._sample_avg": 0.01583986396587658, "timer/replay._sample_min": 0.0005173683166503906, "timer/replay._sample_max": 0.21067214012145996, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.6860034465789795, "timer/env.step_frac": 0.02227934336097665, "timer/env.step_avg": 0.004321915608648338, "timer/env.step_min": 0.0022563934326171875, "timer/env.step_max": 0.0427699089050293, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.57007145881653, "timer/agent.policy_frac": 0.3717778416808227, "timer/agent.policy_avg": 0.07212027890033389, "timer/agent.policy_min": 0.0029222965240478516, "timer/agent.policy_max": 0.14510178565979004, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15507888793945312, "timer/dataset_train_frac": 0.0005167594991607942, "timer/dataset_train_avg": 0.00010024491786648553, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.00027632713317871094, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.4863748550415, "timer/agent.train_frac": 0.6014232492552622, "timer/agent.train_avg": 0.11666863274404751, "timer/agent.train_min": 0.10188007354736328, "timer/agent.train_max": 0.20298099517822266, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25628232955932617, "timer/agent.report_frac": 0.0008539932806233793, "timer/agent.report_avg": 0.12814116477966309, "timer/agent.report_min": 0.09716081619262695, "timer/agent.report_max": 0.15912151336669922, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.961822509765625e-05, "timer/dataset_eval_frac": 2.3198437654501497e-07, "timer/dataset_eval_avg": 6.961822509765625e-05, "timer/dataset_eval_min": 6.961822509765625e-05, "timer/dataset_eval_max": 6.961822509765625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.13376808166503906, "timer/agent.save_frac": 0.0004457468569926448, "timer/agent.save_avg": 0.13376808166503906, "timer/agent.save_min": 0.13376808166503906, "timer/agent.save_max": 0.13376808166503906, "fps": 20.618408021342916}
{"step": 250360, "episode/length": 459.0, "episode/score": 510.0, "episode/reward_rate": 0.1108695652173913}
{"step": 253400, "episode/length": 759.0, "episode/score": 640.0, "episode/reward_rate": 0.08289473684210526}
{"step": 254996, "episode/length": 398.0, "episode/score": 470.0, "episode/reward_rate": 0.11779448621553884}
{"step": 256008, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.116208574848791, "train/action_min": 0.0, "train/action_std": 4.129478974496164, "train/actor_opt_grad_norm": 0.006112727013626887, "train/actor_opt_grad_steps": 62130.0, "train/actor_opt_loss": 0.0003433203287004876, "train/adv_mag": 0.5351877146190213, "train/adv_max": 0.5126616618325633, "train/adv_mean": 0.001393338218088414, "train/adv_min": -0.30207776614735204, "train/adv_std": 0.024731354145032743, "train/cont_avg": 0.9981476814516129, "train/cont_loss_mean": 0.0008215562593525577, "train/cont_loss_std": 0.02127520531731138, "train/cont_neg_acc": 0.8680769246358138, "train/cont_neg_loss": 0.3100601160867462, "train/cont_pos_acc": 0.999917927480513, "train/cont_pos_loss": 0.00023424984158506936, "train/cont_pred": 0.9982363747012231, "train/cont_rate": 0.9981476814516129, "train/dyn_loss_mean": 2.9397138918599777, "train/dyn_loss_std": 5.90465147572179, "train/extr_critic_critic_opt_grad_norm": 1.3689492956284555, "train/extr_critic_critic_opt_grad_steps": 62130.0, "train/extr_critic_critic_opt_loss": 1.4911458946043445, "train/extr_critic_mag": 315.00242900233116, "train/extr_critic_max": 315.00242900233116, "train/extr_critic_mean": 115.47574989564957, "train/extr_critic_min": 0.3898172286248976, "train/extr_critic_std": 80.97003050773374, "train/extr_return_normed_mag": 1.300366727382906, "train/extr_return_normed_max": 1.300366727382906, "train/extr_return_normed_mean": 0.4273108229521782, "train/extr_return_normed_min": -0.01648732283783536, "train/extr_return_normed_std": 0.31249457713096374, "train/extr_return_rate": 0.9511689816751788, "train/extr_return_raw_mag": 342.6431209441154, "train/extr_return_raw_max": 342.6431209441154, "train/extr_return_raw_mean": 115.83765012679561, "train/extr_return_raw_min": 0.530376733837071, "train/extr_return_raw_std": 81.20613260576802, "train/extr_reward_mag": 55.48162965466899, "train/extr_reward_max": 55.48162965466899, "train/extr_reward_mean": 0.7701823484513067, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.9810391279958908, "train/image_loss_mean": 1.2261451482772827, "train/image_loss_std": 0.9376472426999, "train/model_loss_mean": 3.052422425054735, "train/model_loss_std": 4.172721236751926, "train/model_opt_grad_norm": 11.314649735727619, "train/model_opt_grad_steps": 62130.0, "train/model_opt_loss": 3.052422425054735, "train/policy_entropy_mag": 2.6503588338052073, "train/policy_entropy_max": 2.6503588338052073, "train/policy_entropy_mean": 0.9552551050339976, "train/policy_entropy_min": 0.08019351497773201, "train/policy_entropy_std": 0.7420181997360722, "train/policy_logprob_mag": 7.495524335676624, "train/policy_logprob_max": -0.009489783176010656, "train/policy_logprob_mean": -0.954427832557309, "train/policy_logprob_min": -7.495524335676624, "train/policy_logprob_std": 1.2959969066804455, "train/policy_randomness_mag": 0.9169612469211701, "train/policy_randomness_max": 0.9169612469211701, "train/policy_randomness_mean": 0.33049559429768594, "train/policy_randomness_min": 0.027745052595292367, "train/policy_randomness_std": 0.25672068317090313, "train/post_ent_mag": 61.230431858185796, "train/post_ent_max": 61.230431858185796, "train/post_ent_mean": 42.75636183215726, "train/post_ent_min": 15.096192033829228, "train/post_ent_std": 4.749556104598507, "train/prior_ent_mag": 82.11469362320439, "train/prior_ent_max": 82.11469362320439, "train/prior_ent_mean": 45.70936855193107, "train/prior_ent_min": 18.81178768527123, "train/prior_ent_std": 6.690746879577636, "train/rep_loss_mean": 2.9397138918599777, "train/rep_loss_std": 5.90465147572179, "train/reward_avg": 0.8861517137096774, "train/reward_loss_mean": 0.06162739247083664, "train/reward_loss_std": 0.24209081078729322, "train/reward_max_data": 78.90322580645162, "train/reward_max_pred": 44.386336886498235, "train/reward_neg_acc": 0.9754523065782362, "train/reward_neg_loss": 0.007886179241411868, "train/reward_pos_acc": 0.9930439595253236, "train/reward_pos_loss": 0.67356738005915, "train/reward_pred": 0.7956458066740344, "train/reward_rate": 0.08117439516129032, "train_stats/mean_log_entropy": 0.8881034453709921, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 8.10766578069888e-05, "report/cont_loss_std": 0.0014247517101466656, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00214023538865149, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.906380051281303e-05, "report/cont_pred": 0.9989476203918457, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.9679813385009766, "report/dyn_loss_std": 5.768662929534912, "report/image_loss_mean": 1.2399816513061523, "report/image_loss_std": 0.8902410864830017, "report/model_loss_mean": 3.067866325378418, "report/model_loss_std": 3.995631456375122, "report/post_ent_mag": 61.47194290161133, "report/post_ent_max": 61.47194290161133, "report/post_ent_mean": 43.50850296020508, "report/post_ent_min": 11.37614917755127, "report/post_ent_std": 5.05797815322876, "report/prior_ent_mag": 82.37477111816406, "report/prior_ent_max": 82.37477111816406, "report/prior_ent_mean": 46.60935592651367, "report/prior_ent_min": 15.55463981628418, "report/prior_ent_std": 6.796516418457031, "report/rep_loss_mean": 2.9679813385009766, "report/rep_loss_std": 5.768662929534912, "report/reward_avg": 0.6640625, "report/reward_loss_mean": 0.047015026211738586, "report/reward_loss_std": 0.18244659900665283, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.98758316040039, "report/reward_neg_acc": 0.9770355224609375, "report/reward_neg_loss": 0.006544305942952633, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6344536542892456, "report/reward_pred": 0.6206711530685425, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0045227124355733395, "eval/cont_loss_std": 0.14427483081817627, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.6190595626831055, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1923923921131063e-05, "eval/cont_pred": 0.9999785423278809, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.75796127319336, "eval/dyn_loss_std": 11.5460205078125, "eval/image_loss_mean": 4.345687389373779, "eval/image_loss_std": 3.024949073791504, "eval/model_loss_mean": 13.67034912109375, "eval/model_loss_std": 9.795296669006348, "eval/post_ent_mag": 62.75823211669922, "eval/post_ent_max": 62.75823211669922, "eval/post_ent_mean": 43.848350524902344, "eval/post_ent_min": 29.406835556030273, "eval/post_ent_std": 4.223426342010498, "eval/prior_ent_mag": 82.37477111816406, "eval/prior_ent_max": 82.37477111816406, "eval/prior_ent_mean": 48.70176315307617, "eval/prior_ent_min": 32.338661193847656, "eval/prior_ent_std": 6.0786333084106445, "eval/rep_loss_mean": 14.75796127319336, "eval/rep_loss_std": 11.5460205078125, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.4653626084327698, "eval/reward_loss_std": 2.8478784561157227, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.990091323852539, "eval/reward_neg_acc": 0.9656912088394165, "eval/reward_neg_loss": 0.026970500126481056, "eval/reward_pos_acc": 0.1515151411294937, "eval/reward_pos_loss": 13.630411148071289, "eval/reward_pred": 0.09557290375232697, "eval/reward_rate": 0.0322265625, "replay/size": 95433.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.875105480815089e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3820827007293701e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09819626808167, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 400.87210607528687, "timer/replay._sample_frac": 1.3358031173142493, "timer/replay._sample_avg": 0.01618508180213529, "timer/replay._sample_min": 0.0006277561187744141, "timer/replay._sample_max": 0.04644179344177246, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.707603693008423, "timer/env.step_frac": 0.022351362908614194, "timer/env.step_avg": 0.004333077321064873, "timer/env.step_min": 0.002429962158203125, "timer/env.step_max": 0.027264833450317383, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.55657196044922, "timer/agent.policy_frac": 0.37173356370590865, "timer/agent.policy_avg": 0.07206496896669846, "timer/agent.policy_min": 0.00290679931640625, "timer/agent.policy_max": 0.08737659454345703, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15560269355773926, "timer/dataset_train_frac": 0.000518505927368978, "timer/dataset_train_avg": 0.00010051853589001243, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00023865699768066406, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.47212672233582, "timer/agent.train_frac": 0.601376912512722, "timer/agent.train_avg": 0.11658406119013942, "timer/agent.train_min": 0.10347890853881836, "timer/agent.train_max": 0.20449471473693848, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26528000831604004, "timer/agent.report_frac": 0.0008839773501306284, "timer/agent.report_avg": 0.13264000415802002, "timer/agent.report_min": 0.1007237434387207, "timer/agent.report_max": 0.16455626487731934, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.841255187988281e-05, "timer/dataset_eval_frac": 1.946447949580547e-07, "timer/dataset_eval_avg": 5.841255187988281e-05, "timer/dataset_eval_min": 5.841255187988281e-05, "timer/dataset_eval_max": 5.841255187988281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.631761322477775}
{"step": 258264, "episode/length": 816.0, "episode/score": 680.0, "episode/reward_rate": 0.08200734394124846}
{"step": 260236, "episode/length": 492.0, "episode/score": 600.0, "episode/reward_rate": 0.11764705882352941}
{"step": 262200, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.266654328377015, "train/action_min": 0.0, "train/action_std": 4.080048524179766, "train/actor_opt_grad_norm": 0.007301937944946751, "train/actor_opt_grad_steps": 63680.0, "train/actor_opt_loss": 0.0007988519863792751, "train/adv_mag": 0.5418533029094819, "train/adv_max": 0.5265173700547987, "train/adv_mean": 0.0019762798935839634, "train/adv_min": -0.3231276783250993, "train/adv_std": 0.028949034544489077, "train/cont_avg": 0.9981476814516129, "train/cont_loss_mean": 0.001209817639127939, "train/cont_loss_std": 0.028385886862486498, "train/cont_neg_acc": 0.8335877882160303, "train/cont_neg_loss": 0.43454197933897376, "train/cont_pos_acc": 0.999848441154726, "train/cont_pos_loss": 0.00044803076337563005, "train/cont_pred": 0.9981758656040315, "train/cont_rate": 0.9981476814516129, "train/dyn_loss_mean": 2.9391207418134138, "train/dyn_loss_std": 5.923354478036203, "train/extr_critic_critic_opt_grad_norm": 1.484192487501329, "train/extr_critic_critic_opt_grad_steps": 63680.0, "train/extr_critic_critic_opt_loss": 1.550971419580521, "train/extr_critic_mag": 314.8578145673198, "train/extr_critic_max": 314.8578145673198, "train/extr_critic_mean": 115.49964781730405, "train/extr_critic_min": 0.16847061418717907, "train/extr_critic_std": 80.47219696044922, "train/extr_return_normed_mag": 1.3058952104660773, "train/extr_return_normed_max": 1.3058952104660773, "train/extr_return_normed_mean": 0.4308709050378492, "train/extr_return_normed_min": -0.020309157062682413, "train/extr_return_normed_std": 0.3153227980098417, "train/extr_return_rate": 0.9591011916437456, "train/extr_return_raw_mag": 340.4562725436303, "train/extr_return_raw_max": 340.4562725436303, "train/extr_return_raw_mean": 116.00633815642325, "train/extr_return_raw_min": 0.3370166066838729, "train/extr_return_raw_std": 80.84458492648217, "train/extr_reward_mag": 41.740143419081164, "train/extr_reward_max": 41.740143419081164, "train/extr_reward_mean": 0.7656606280034588, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.969087428431357, "train/image_loss_mean": 1.2148066274581417, "train/image_loss_std": 0.9265498119015847, "train/model_loss_mean": 3.037546471626528, "train/model_loss_std": 4.174888576999788, "train/model_opt_grad_norm": 11.047513632620534, "train/model_opt_grad_steps": 63680.0, "train/model_opt_loss": 3.037546471626528, "train/policy_entropy_mag": 2.642942105570147, "train/policy_entropy_max": 2.642942105570147, "train/policy_entropy_mean": 0.9249722957611084, "train/policy_entropy_min": 0.08019386414558657, "train/policy_entropy_std": 0.7276454294881513, "train/policy_logprob_mag": 7.495525415482059, "train/policy_logprob_max": -0.009489809126863556, "train/policy_logprob_mean": -0.9249306924881474, "train/policy_logprob_min": -7.495525415482059, "train/policy_logprob_std": 1.2870641177700413, "train/policy_randomness_mag": 0.9143952358153559, "train/policy_randomness_max": 0.9143952358153559, "train/policy_randomness_mean": 0.3200184550016157, "train/policy_randomness_min": 0.027745173366800432, "train/policy_randomness_std": 0.25174804435622306, "train/post_ent_mag": 61.46328695974042, "train/post_ent_max": 61.46328695974042, "train/post_ent_mean": 42.96278787428333, "train/post_ent_min": 14.736407409175749, "train/post_ent_std": 4.755212891486384, "train/prior_ent_mag": 82.29593397571195, "train/prior_ent_max": 82.29593397571195, "train/prior_ent_mean": 45.91476548717868, "train/prior_ent_min": 18.758239912217665, "train/prior_ent_std": 6.6874243151757025, "train/rep_loss_mean": 2.9391207418134138, "train/rep_loss_std": 5.923354478036203, "train/reward_avg": 0.8494833669354839, "train/reward_loss_mean": 0.058057596450371125, "train/reward_loss_std": 0.22865453285555687, "train/reward_max_data": 53.87096774193548, "train/reward_max_pred": 35.65273834966844, "train/reward_neg_acc": 0.9762905555386697, "train/reward_neg_loss": 0.00701483100983164, "train/reward_pos_acc": 0.9934763873777082, "train/reward_pos_loss": 0.6546592339392632, "train/reward_pred": 0.7778402530377911, "train/reward_rate": 0.07908266129032258, "train_stats/mean_log_entropy": 0.9998040497303009, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0015548830851912498, "report/cont_loss_std": 0.030810056254267693, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.14499568939208984, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.0014146672328934073, "report/cont_pred": 0.99811190366745, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.721484661102295, "report/dyn_loss_std": 5.744743824005127, "report/image_loss_mean": 1.1532254219055176, "report/image_loss_std": 0.8057998418807983, "report/model_loss_mean": 2.8355183601379395, "report/model_loss_std": 3.9688291549682617, "report/post_ent_mag": 64.95475769042969, "report/post_ent_max": 64.95475769042969, "report/post_ent_mean": 43.260398864746094, "report/post_ent_min": 16.03560447692871, "report/post_ent_std": 4.775022506713867, "report/prior_ent_mag": 82.21832275390625, "report/prior_ent_max": 82.21832275390625, "report/prior_ent_mean": 46.14379119873047, "report/prior_ent_min": 17.033607482910156, "report/prior_ent_std": 6.4558539390563965, "report/rep_loss_mean": 2.721484661102295, "report/rep_loss_std": 5.744743824005127, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.04784729331731796, "report/reward_loss_std": 0.2184031754732132, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.00722599029541, "report/reward_neg_acc": 0.9761163592338562, "report/reward_neg_loss": 0.006659488193690777, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6980745196342468, "report/reward_pred": 0.5522105693817139, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.00676884176209569, "eval/cont_loss_std": 0.19349056482315063, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 3.0882911682128906, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0007384655182249844, "eval/cont_pred": 0.9984263181686401, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 18.4139404296875, "eval/dyn_loss_std": 11.960782051086426, "eval/image_loss_mean": 5.318943500518799, "eval/image_loss_std": 2.933931589126587, "eval/model_loss_mean": 16.768720626831055, "eval/model_loss_std": 9.64602279663086, "eval/post_ent_mag": 64.95475769042969, "eval/post_ent_max": 64.95475769042969, "eval/post_ent_mean": 44.38463592529297, "eval/post_ent_min": 29.37584686279297, "eval/post_ent_std": 4.810336112976074, "eval/prior_ent_mag": 82.21832275390625, "eval/prior_ent_max": 82.21832275390625, "eval/prior_ent_mean": 49.573402404785156, "eval/prior_ent_min": 31.236129760742188, "eval/prior_ent_std": 6.23137092590332, "eval/rep_loss_mean": 18.4139404296875, "eval/rep_loss_std": 11.960782051086426, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.3946448564529419, "eval/reward_loss_std": 2.603553295135498, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.96725845336914, "eval/reward_neg_acc": 0.9609609246253967, "eval/reward_neg_loss": 0.033947255462408066, "eval/reward_pos_acc": 0.07999999821186066, "eval/reward_pos_loss": 14.808119773864746, "eval/reward_pred": 0.08785823732614517, "eval/reward_rate": 0.0244140625, "replay/size": 96981.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.888658991771767e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.365371837788466e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.115964889526367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10726165771484, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 394.9802520275116, "timer/replay._sample_frac": 1.3161302723757595, "timer/replay._sample_avg": 0.015947200098009998, "timer/replay._sample_min": 0.0005495548248291016, "timer/replay._sample_max": 0.03863954544067383, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.731302738189697, "timer/env.step_frac": 0.02242965632023605, "timer/env.step_avg": 0.0043483867817762905, "timer/env.step_min": 0.0026831626892089844, "timer/env.step_max": 0.030269622802734375, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.34477043151855, "timer/agent.policy_frac": 0.37101658192633813, "timer/agent.policy_avg": 0.0719281462735908, "timer/agent.policy_min": 0.0030930042266845703, "timer/agent.policy_max": 0.08910894393920898, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15751290321350098, "timer/dataset_train_frac": 0.0005248553545270464, "timer/dataset_train_avg": 0.00010175252145574998, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.00023102760314941406, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.69413328170776, "timer/agent.train_frac": 0.6020985039935393, "timer/agent.train_avg": 0.11672747628017298, "timer/agent.train_min": 0.10306835174560547, "timer/agent.train_max": 0.20293879508972168, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2023448944091797, "timer/agent.report_frac": 0.000674241913679392, "timer/agent.report_avg": 0.10117244720458984, "timer/agent.report_min": 0.09644746780395508, "timer/agent.report_max": 0.10589742660522461, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.8650970458984375e-05, "timer/dataset_eval_frac": 1.9543335984278286e-07, "timer/dataset_eval_avg": 5.8650970458984375e-05, "timer/dataset_eval_min": 5.8650970458984375e-05, "timer/dataset_eval_max": 5.8650970458984375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.631131404383204}
{"step": 262320, "episode/length": 520.0, "episode/score": 500.0, "episode/reward_rate": 0.09404990403071017}
{"step": 263872, "episode/length": 387.0, "episode/score": 980.0, "episode/reward_rate": 0.12371134020618557}
{"step": 266616, "episode/length": 685.0, "episode/score": 1210.0, "episode/reward_rate": 0.10349854227405247}
{"step": 268380, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.16191358690138, "train/action_min": 0.0, "train/action_std": 4.2131671951962755, "train/actor_opt_grad_norm": 0.0063408406514843755, "train/actor_opt_grad_steps": 65225.0, "train/actor_opt_loss": 0.00014460875168973775, "train/adv_mag": 0.5254328462791134, "train/adv_max": 0.49683471333670925, "train/adv_mean": 0.0013662658607038545, "train/adv_min": -0.3123017471138533, "train/adv_std": 0.0250765886883457, "train/cont_avg": 0.9982941862824676, "train/cont_loss_mean": 0.0008073847778481658, "train/cont_loss_std": 0.019676715572985188, "train/cont_neg_acc": 0.8697815983367145, "train/cont_neg_loss": 0.31066069966897675, "train/cont_pos_acc": 0.9999300996204475, "train/cont_pos_loss": 0.0002703910571228206, "train/cont_pred": 0.9983523429988267, "train/cont_rate": 0.9982941862824676, "train/dyn_loss_mean": 2.889244784008373, "train/dyn_loss_std": 5.890063775050176, "train/extr_critic_critic_opt_grad_norm": 1.4133424979525726, "train/extr_critic_critic_opt_grad_steps": 65225.0, "train/extr_critic_critic_opt_loss": 1.5016955323033518, "train/extr_critic_mag": 318.3660480449726, "train/extr_critic_max": 318.3660480449726, "train/extr_critic_mean": 118.09961056399655, "train/extr_critic_min": 0.1087878586409928, "train/extr_critic_std": 81.39346878249924, "train/extr_return_normed_mag": 1.2981701357798143, "train/extr_return_normed_max": 1.2981701357798143, "train/extr_return_normed_mean": 0.43306630849838257, "train/extr_return_normed_min": -0.02133039233891608, "train/extr_return_normed_std": 0.3131092821622824, "train/extr_return_rate": 0.9560560069300912, "train/extr_return_raw_mag": 343.80941504936715, "train/extr_return_raw_max": 343.80941504936715, "train/extr_return_raw_mean": 118.4554203578404, "train/extr_return_raw_min": 0.03931616057997854, "train/extr_return_raw_std": 81.60747223395806, "train/extr_reward_mag": 51.16269559984083, "train/extr_reward_max": 51.16269559984083, "train/extr_reward_mean": 0.7992540977217935, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.0274389099765133, "train/image_loss_mean": 1.202294705750106, "train/image_loss_std": 0.9274396718322456, "train/model_loss_mean": 2.997060822202014, "train/model_loss_std": 4.1446784750207675, "train/model_opt_grad_norm": 10.870523740718891, "train/model_opt_grad_steps": 65225.0, "train/model_opt_loss": 2.997060822202014, "train/policy_entropy_mag": 2.643183359852085, "train/policy_entropy_max": 2.643183359852085, "train/policy_entropy_mean": 0.9231623144118817, "train/policy_entropy_min": 0.08019338074055585, "train/policy_entropy_std": 0.7331732449593482, "train/policy_logprob_mag": 7.495524421914832, "train/policy_logprob_max": -0.009489760939757546, "train/policy_logprob_mean": -0.9227218500205449, "train/policy_logprob_min": -7.495524421914832, "train/policy_logprob_std": 1.2868484870179908, "train/policy_randomness_mag": 0.9144787018175249, "train/policy_randomness_max": 0.9144787018175249, "train/policy_randomness_mean": 0.31939224608532796, "train/policy_randomness_min": 0.027745006194749434, "train/policy_randomness_std": 0.253660539140949, "train/post_ent_mag": 61.75788426089596, "train/post_ent_max": 61.75788426089596, "train/post_ent_mean": 42.78495865363579, "train/post_ent_min": 14.765012976411102, "train/post_ent_std": 4.800988838270113, "train/prior_ent_mag": 82.53486459905452, "train/prior_ent_max": 82.53486459905452, "train/prior_ent_mean": 45.73431545108944, "train/prior_ent_min": 18.435090696656857, "train/prior_ent_std": 6.738868363491901, "train/rep_loss_mean": 2.889244784008373, "train/rep_loss_std": 5.890063775050176, "train/reward_avg": 0.8887352881493507, "train/reward_loss_mean": 0.06041186666962775, "train/reward_loss_std": 0.2326005730149034, "train/reward_max_data": 60.58441558441559, "train/reward_max_pred": 34.47318057270793, "train/reward_neg_acc": 0.9765887422995134, "train/reward_neg_loss": 0.007042864788105929, "train/reward_pos_acc": 0.9940917027461065, "train/reward_pos_loss": 0.651527498449598, "train/reward_pred": 0.8167923708240707, "train/reward_rate": 0.08319171063311688, "train_stats/mean_log_entropy": 0.8507786194483439, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0003064748889300972, "report/cont_loss_std": 0.00671753054484725, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.1341692954301834, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.451241693459451e-05, "report/cont_pred": 0.9982436895370483, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.802799940109253, "report/dyn_loss_std": 5.989333152770996, "report/image_loss_mean": 1.090498924255371, "report/image_loss_std": 0.8617073893547058, "report/model_loss_mean": 2.838186740875244, "report/model_loss_std": 4.042812347412109, "report/post_ent_mag": 61.56736373901367, "report/post_ent_max": 61.56736373901367, "report/post_ent_mean": 42.656009674072266, "report/post_ent_min": 12.863271713256836, "report/post_ent_std": 5.252129554748535, "report/prior_ent_mag": 82.64691925048828, "report/prior_ent_max": 82.64691925048828, "report/prior_ent_mean": 45.70793914794922, "report/prior_ent_min": 19.134605407714844, "report/prior_ent_std": 7.0212883949279785, "report/rep_loss_mean": 2.802799940109253, "report/rep_loss_std": 5.989333152770996, "report/reward_avg": 0.99609375, "report/reward_loss_mean": 0.0657014399766922, "report/reward_loss_std": 0.2112242728471756, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99614715576172, "report/reward_neg_acc": 0.9772727489471436, "report/reward_neg_loss": 0.00789346732199192, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5998470783233643, "report/reward_pred": 0.9550274610519409, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0001193533607874997, "eval/cont_loss_std": 0.0034333164803683758, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.10918790847063065, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.27369812616962e-05, "eval/cont_pred": 0.9991118907928467, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.9176025390625, "eval/dyn_loss_std": 12.654695510864258, "eval/image_loss_mean": 3.970487594604492, "eval/image_loss_std": 2.731673002243042, "eval/model_loss_mean": 13.53608512878418, "eval/model_loss_std": 9.921053886413574, "eval/post_ent_mag": 62.72114181518555, "eval/post_ent_max": 62.72114181518555, "eval/post_ent_mean": 43.51100158691406, "eval/post_ent_min": 27.91266632080078, "eval/post_ent_std": 4.576788902282715, "eval/prior_ent_mag": 82.64691925048828, "eval/prior_ent_max": 82.64691925048828, "eval/prior_ent_mean": 47.951927185058594, "eval/prior_ent_min": 30.24593734741211, "eval/prior_ent_std": 5.835611343383789, "eval/rep_loss_mean": 14.9176025390625, "eval/rep_loss_std": 12.654695510864258, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.6149162650108337, "eval/reward_loss_std": 3.2311198711395264, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.986675262451172, "eval/reward_neg_acc": 0.9542683959007263, "eval/reward_neg_loss": 0.04581543430685997, "eval/reward_pos_acc": 0.07500000298023224, "eval/reward_pos_loss": 14.614798545837402, "eval/reward_pred": 0.12003545463085175, "eval/reward_rate": 0.0390625, "replay/size": 98526.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 5.02839443367276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3506431795632569e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.86102294921875e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.085396528244, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 392.13867139816284, "timer/replay._sample_frac": 1.3067569296437083, "timer/replay._sample_avg": 0.01586321486238523, "timer/replay._sample_min": 0.0005106925964355469, "timer/replay._sample_max": 0.051168203353881836, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.777995586395264, "timer/env.step_frac": 0.022586889148260566, "timer/env.step_avg": 0.004387052159479135, "timer/env.step_min": 0.002336740493774414, "timer/env.step_max": 0.033463239669799805, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.33326148986816, "timer/agent.policy_frac": 0.3710052630947987, "timer/agent.policy_avg": 0.07206036342386289, "timer/agent.policy_min": 0.002808809280395508, "timer/agent.policy_max": 0.19489240646362305, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15685224533081055, "timer/dataset_train_frac": 0.0005226920308201256, "timer/dataset_train_avg": 0.00010152248888725602, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.0013916492462158203, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.61249351501465, "timer/agent.train_frac": 0.6018703195975597, "timer/agent.train_avg": 0.11690129030098036, "timer/agent.train_min": 0.10250091552734375, "timer/agent.train_max": 0.3144218921661377, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26802754402160645, "timer/agent.report_frac": 0.0008931709010917487, "timer/agent.report_avg": 0.13401377201080322, "timer/agent.report_min": 0.1041727066040039, "timer/agent.report_max": 0.16385483741760254, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.939338684082031e-05, "timer/dataset_eval_frac": 2.645693118003755e-07, "timer/dataset_eval_avg": 7.939338684082031e-05, "timer/dataset_eval_min": 7.939338684082031e-05, "timer/dataset_eval_max": 7.939338684082031e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16739606857299805, "timer/agent.save_frac": 0.0005578281066311161, "timer/agent.save_avg": 0.16739606857299805, "timer/agent.save_min": 0.16739606857299805, "timer/agent.save_max": 0.16739606857299805, "fps": 20.592773772816784}
{"step": 268948, "episode/length": 582.0, "episode/score": 440.0, "episode/reward_rate": 0.07547169811320754}
{"step": 270636, "episode/length": 421.0, "episode/score": 1010.0, "episode/reward_rate": 0.12322274881516587}
{"step": 273456, "episode/length": 704.0, "episode/score": 1100.0, "episode/reward_rate": 0.0851063829787234}
{"step": 274576, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.218505465599799, "train/action_min": 0.0, "train/action_std": 4.224180058510073, "train/actor_opt_grad_norm": 0.006546951894978842, "train/actor_opt_grad_steps": 66770.0, "train/actor_opt_loss": 0.0003214781248501705, "train/adv_mag": 0.5941168102525896, "train/adv_max": 0.5634768807118938, "train/adv_mean": 0.0014953897034369983, "train/adv_min": -0.3446792353545466, "train/adv_std": 0.026259479082880482, "train/cont_avg": 0.9981413810483871, "train/cont_loss_mean": 0.000911112154626571, "train/cont_loss_std": 0.021200682800309227, "train/cont_neg_acc": 0.8997619056275913, "train/cont_neg_loss": 0.3171069964396468, "train/cont_pos_acc": 0.9998673700517223, "train/cont_pos_loss": 0.00038105191044759257, "train/cont_pred": 0.9981148596732847, "train/cont_rate": 0.9981413810483871, "train/dyn_loss_mean": 2.959820827361076, "train/dyn_loss_std": 5.9410499603517595, "train/extr_critic_critic_opt_grad_norm": 1.3900284640250666, "train/extr_critic_critic_opt_grad_steps": 66770.0, "train/extr_critic_critic_opt_loss": 1.4988516415319135, "train/extr_critic_mag": 320.5279769405242, "train/extr_critic_max": 320.5279769405242, "train/extr_critic_mean": 118.14337709488407, "train/extr_critic_min": 0.21543831979074785, "train/extr_critic_std": 82.77622739730343, "train/extr_return_normed_mag": 1.322142312603612, "train/extr_return_normed_max": 1.322142312603612, "train/extr_return_normed_mean": 0.4328001712599108, "train/extr_return_normed_min": -0.020564685365365397, "train/extr_return_normed_std": 0.3180355268139993, "train/extr_return_rate": 0.9496875489911726, "train/extr_return_raw_mag": 350.7011394869897, "train/extr_return_raw_max": 350.7011394869897, "train/extr_return_raw_mean": 118.53403778076172, "train/extr_return_raw_min": 0.2032827534752282, "train/extr_return_raw_std": 83.01467789680727, "train/extr_reward_mag": 68.8740167310161, "train/extr_reward_max": 68.8740167310161, "train/extr_reward_mean": 0.7866156030085779, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.0381786538708595, "train/image_loss_mean": 1.215756224047753, "train/image_loss_std": 0.9391158819198608, "train/model_loss_mean": 3.055016416118991, "train/model_loss_std": 4.193043884154289, "train/model_opt_grad_norm": 10.85364416183964, "train/model_opt_grad_steps": 66770.0, "train/model_opt_loss": 3.055016416118991, "train/policy_entropy_mag": 2.647764044423257, "train/policy_entropy_max": 2.647764044423257, "train/policy_entropy_mean": 0.9261750102043151, "train/policy_entropy_min": 0.08019332438707352, "train/policy_entropy_std": 0.7320829414552258, "train/policy_logprob_mag": 7.495530491490518, "train/policy_logprob_max": -0.009489750435515757, "train/policy_logprob_mean": -0.9266805675721937, "train/policy_logprob_min": -7.495530491490518, "train/policy_logprob_std": 1.288647064855022, "train/policy_randomness_mag": 0.916063509448882, "train/policy_randomness_max": 0.916063509448882, "train/policy_randomness_mean": 0.32043456771681383, "train/policy_randomness_min": 0.027744986765807673, "train/policy_randomness_std": 0.2532833169544897, "train/post_ent_mag": 61.96009004654423, "train/post_ent_max": 61.96009004654423, "train/post_ent_mean": 42.85695675265404, "train/post_ent_min": 14.606506015408424, "train/post_ent_std": 4.846084665483044, "train/prior_ent_mag": 82.68275687925278, "train/prior_ent_max": 82.68275687925278, "train/prior_ent_mean": 45.8250855230516, "train/prior_ent_min": 18.12104655850318, "train/prior_ent_std": 6.8031734312734296, "train/rep_loss_mean": 2.959820827361076, "train/rep_loss_std": 5.9410499603517595, "train/reward_avg": 0.8926411290322581, "train/reward_loss_mean": 0.06245657131075859, "train/reward_loss_std": 0.24491750626794753, "train/reward_max_data": 66.45161290322581, "train/reward_max_pred": 32.99551032896965, "train/reward_neg_acc": 0.9756182928239145, "train/reward_neg_loss": 0.007806094449704453, "train/reward_pos_acc": 0.993766434731022, "train/reward_pos_loss": 0.6661527568294155, "train/reward_pred": 0.8070821827457797, "train/reward_rate": 0.08302041330645162, "train_stats/mean_log_entropy": 0.9329403837521871, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4341944734042045e-05, "report/cont_loss_std": 0.0002856880018953234, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0004744180478155613, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3892213246435858e-05, "report/cont_pred": 0.9990100860595703, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6748340129852295, "report/dyn_loss_std": 5.277493953704834, "report/image_loss_mean": 0.9945878982543945, "report/image_loss_std": 0.6509120464324951, "report/model_loss_mean": 2.65966534614563, "report/model_loss_std": 3.5540263652801514, "report/post_ent_mag": 64.85884094238281, "report/post_ent_max": 64.85884094238281, "report/post_ent_mean": 43.44256591796875, "report/post_ent_min": 14.58001708984375, "report/post_ent_std": 4.372008800506592, "report/prior_ent_mag": 82.61479187011719, "report/prior_ent_max": 82.61479187011719, "report/prior_ent_mean": 46.36546325683594, "report/prior_ent_min": 18.459949493408203, "report/prior_ent_std": 6.442442417144775, "report/rep_loss_mean": 2.6748340129852295, "report/rep_loss_std": 5.277493953704834, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.06016252562403679, "report/reward_loss_std": 0.2493036687374115, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.010973930358887, "report/reward_neg_acc": 0.9808713793754578, "report/reward_neg_loss": 0.005459949374198914, "report/reward_pos_acc": 0.9879518747329712, "report/reward_pos_loss": 0.6803447604179382, "report/reward_pred": 0.7562916278839111, "report/reward_rate": 0.0810546875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.137421107472619e-07, "eval/cont_loss_std": 1.2227729712321889e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.137421107472619e-07, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 14.623409271240234, "eval/dyn_loss_std": 9.581287384033203, "eval/image_loss_mean": 4.124380111694336, "eval/image_loss_std": 2.4963386058807373, "eval/model_loss_mean": 13.3807373046875, "eval/model_loss_std": 8.131664276123047, "eval/post_ent_mag": 55.06708526611328, "eval/post_ent_max": 55.06708526611328, "eval/post_ent_mean": 43.919700622558594, "eval/post_ent_min": 30.267372131347656, "eval/post_ent_std": 4.192848205566406, "eval/prior_ent_mag": 82.61479187011719, "eval/prior_ent_max": 82.61479187011719, "eval/prior_ent_mean": 49.09513473510742, "eval/prior_ent_min": 32.098636627197266, "eval/prior_ent_std": 5.453046798706055, "eval/rep_loss_mean": 14.623409271240234, "eval/rep_loss_std": 9.581287384033203, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.48231080174446106, "eval/reward_loss_std": 2.771334171295166, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.414057731628418, "eval/reward_neg_acc": 0.9666328430175781, "eval/reward_neg_loss": 0.01812116429209709, "eval/reward_pos_acc": 0.11428571492433548, "eval/reward_pos_loss": 13.598983764648438, "eval/reward_pred": 0.07468323409557343, "eval/reward_rate": 0.0341796875, "replay/size": 100075.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.966309795539713e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3461453134279393e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.086162567138672e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1477825641632, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 393.22769117355347, "timer/replay._sample_frac": 1.3101135974226041, "timer/replay._sample_avg": 0.015866191541863844, "timer/replay._sample_min": 0.0006031990051269531, "timer/replay._sample_max": 0.05278182029724121, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.7742509841918945, "timer/env.step_frac": 0.02256971857769347, "timer/env.step_avg": 0.004373305993668105, "timer/env.step_min": 0.002413034439086914, "timer/env.step_max": 0.029219865798950195, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.36156344413757, "timer/agent.policy_frac": 0.37102244265400025, "timer/agent.policy_avg": 0.07189255225573762, "timer/agent.policy_min": 0.002992868423461914, "timer/agent.policy_max": 0.08859801292419434, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15255975723266602, "timer/dataset_train_frac": 0.0005082821399823369, "timer/dataset_train_avg": 9.848919124123048e-05, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.00022792816162109375, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.65560936927795, "timer/agent.train_frac": 0.6018888689629377, "timer/agent.train_avg": 0.11662724943142541, "timer/agent.train_min": 0.10238838195800781, "timer/agent.train_max": 0.20350146293640137, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2606489658355713, "timer/agent.report_frac": 0.0008684021038198135, "timer/agent.report_avg": 0.13032448291778564, "timer/agent.report_min": 0.0957038402557373, "timer/agent.report_max": 0.16494512557983398, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.220008850097656e-05, "timer/dataset_eval_frac": 1.405977020401787e-07, "timer/dataset_eval_avg": 4.220008850097656e-05, "timer/dataset_eval_min": 4.220008850097656e-05, "timer/dataset_eval_max": 4.220008850097656e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.641985280320153}
{"step": 275336, "episode/length": 469.0, "episode/score": 540.0, "episode/reward_rate": 0.1148936170212766}
{"step": 277300, "episode/length": 490.0, "episode/score": 530.0, "episode/reward_rate": 0.10590631364562118}
{"step": 279092, "episode/length": 447.0, "episode/score": 530.0, "episode/reward_rate": 0.11607142857142858}
{"step": 280760, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.314018790952622, "train/action_min": 0.0, "train/action_std": 4.071223931158743, "train/actor_opt_grad_norm": 0.0068292177462529755, "train/actor_opt_grad_steps": 68320.0, "train/actor_opt_loss": 0.00029521293531175734, "train/adv_mag": 0.5614656917510494, "train/adv_max": 0.5340727122560625, "train/adv_mean": 0.001454088118208024, "train/adv_min": -0.33152580900538353, "train/adv_std": 0.02618984235751052, "train/cont_avg": 0.9980594758064516, "train/cont_loss_mean": 0.0009127312954492041, "train/cont_loss_std": 0.020681667972986553, "train/cont_neg_acc": 0.8906862757661763, "train/cont_neg_loss": 0.26734065192895556, "train/cont_pos_acc": 0.999867296218872, "train/cont_pos_loss": 0.00039546990153520447, "train/cont_pred": 0.9980229923802038, "train/cont_rate": 0.9980594758064516, "train/dyn_loss_mean": 2.949815527085335, "train/dyn_loss_std": 5.903953413809499, "train/extr_critic_critic_opt_grad_norm": 1.473487348710337, "train/extr_critic_critic_opt_grad_steps": 68320.0, "train/extr_critic_critic_opt_loss": 1.5253689596729894, "train/extr_critic_mag": 321.75499277422506, "train/extr_critic_max": 321.75499277422506, "train/extr_critic_mean": 115.11066490911668, "train/extr_critic_min": 0.1064781581201861, "train/extr_critic_std": 83.99011043425529, "train/extr_return_normed_mag": 1.2989589564261899, "train/extr_return_normed_max": 1.2989589564261899, "train/extr_return_normed_mean": 0.41801029405286233, "train/extr_return_normed_min": -0.018808051798072073, "train/extr_return_normed_std": 0.31886812919570556, "train/extr_return_rate": 0.9490797692729581, "train/extr_return_raw_mag": 348.19414869739165, "train/extr_return_raw_max": 348.19414869739165, "train/extr_return_raw_mean": 115.49453691051852, "train/extr_return_raw_min": 0.08652943558521539, "train/extr_return_raw_std": 84.25205818914598, "train/extr_reward_mag": 67.74297917273736, "train/extr_reward_max": 67.74297917273736, "train/extr_reward_mean": 0.7787892779996318, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.073188059560714, "train/image_loss_mean": 1.2055390134934456, "train/image_loss_std": 0.9126457998829504, "train/model_loss_mean": 3.038326135758431, "train/model_loss_std": 4.149667827544674, "train/model_opt_grad_norm": 10.970456311010546, "train/model_opt_grad_steps": 68320.0, "train/model_opt_loss": 3.038326135758431, "train/policy_entropy_mag": 2.6552735728602257, "train/policy_entropy_max": 2.6552735728602257, "train/policy_entropy_mean": 0.9111427368656282, "train/policy_entropy_min": 0.0801929906971993, "train/policy_entropy_std": 0.7214846034203807, "train/policy_logprob_mag": 7.495531838940036, "train/policy_logprob_max": -0.00948969709777063, "train/policy_logprob_mean": -0.9124452852433728, "train/policy_logprob_min": -7.495531838940036, "train/policy_logprob_std": 1.28458243877657, "train/policy_randomness_mag": 0.918661630153656, "train/policy_randomness_max": 0.918661630153656, "train/policy_randomness_mean": 0.3152337602069301, "train/policy_randomness_min": 0.027744871269791357, "train/policy_randomness_std": 0.24961654466967428, "train/post_ent_mag": 62.05218936551002, "train/post_ent_max": 62.05218936551002, "train/post_ent_mean": 42.80318116218813, "train/post_ent_min": 14.422838567918348, "train/post_ent_std": 4.8987392871610576, "train/prior_ent_mag": 82.77009907384073, "train/prior_ent_max": 82.77009907384073, "train/prior_ent_mean": 45.77968474357359, "train/prior_ent_min": 17.984278402020855, "train/prior_ent_std": 6.848261002571352, "train/rep_loss_mean": 2.949815527085335, "train/rep_loss_std": 5.903953413809499, "train/reward_avg": 0.9008316532258065, "train/reward_loss_mean": 0.061985079102939176, "train/reward_loss_std": 0.253093508270479, "train/reward_max_data": 91.03225806451613, "train/reward_max_pred": 47.39476067327684, "train/reward_neg_acc": 0.9757974763070384, "train/reward_neg_loss": 0.008133896293434044, "train/reward_pos_acc": 0.9925447183270608, "train/reward_pos_loss": 0.6749246178134796, "train/reward_pred": 0.8062619359262528, "train/reward_rate": 0.08120589717741936, "train_stats/mean_log_entropy": 0.7952828605969747, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002871573669835925, "report/cont_loss_std": 0.008444525301456451, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.110784705815604e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002874271885957569, "report/cont_pred": 0.9987690448760986, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.4235334396362305, "report/dyn_loss_std": 5.702564239501953, "report/image_loss_mean": 0.9602981805801392, "report/image_loss_std": 0.6802765130996704, "report/model_loss_mean": 2.4609150886535645, "report/model_loss_std": 3.817410707473755, "report/post_ent_mag": 62.65925216674805, "report/post_ent_max": 62.65925216674805, "report/post_ent_mean": 42.82194137573242, "report/post_ent_min": 10.585400581359863, "report/post_ent_std": 4.970745086669922, "report/prior_ent_mag": 82.92109680175781, "report/prior_ent_max": 82.92109680175781, "report/prior_ent_mean": 45.38190460205078, "report/prior_ent_min": 13.891002655029297, "report/prior_ent_std": 6.881928443908691, "report/rep_loss_mean": 2.4235334396362305, "report/rep_loss_std": 5.702564239501953, "report/reward_avg": 0.791015625, "report/reward_loss_mean": 0.04620976746082306, "report/reward_loss_std": 0.15702708065509796, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.7345027923584, "report/reward_neg_acc": 0.9830508232116699, "report/reward_neg_loss": 0.0022964212112128735, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5643872618675232, "report/reward_pred": 0.7714569568634033, "report/reward_rate": 0.078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.1043583703649347e-07, "eval/cont_loss_std": 3.7806985346833244e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.1043583703649347e-07, "eval/cont_pred": 0.9999997019767761, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 17.7767391204834, "eval/dyn_loss_std": 12.211495399475098, "eval/image_loss_mean": 5.554360389709473, "eval/image_loss_std": 3.5735933780670166, "eval/model_loss_mean": 16.70523452758789, "eval/model_loss_std": 10.367359161376953, "eval/post_ent_mag": 58.82870101928711, "eval/post_ent_max": 58.82870101928711, "eval/post_ent_mean": 43.5914306640625, "eval/post_ent_min": 28.07556915283203, "eval/post_ent_std": 4.353377819061279, "eval/prior_ent_mag": 82.92109680175781, "eval/prior_ent_max": 82.92109680175781, "eval/prior_ent_mean": 49.67808151245117, "eval/prior_ent_min": 28.7933349609375, "eval/prior_ent_std": 6.392844200134277, "eval/rep_loss_mean": 17.7767391204834, "eval/rep_loss_std": 12.211495399475098, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.4848291575908661, "eval/reward_loss_std": 2.715829372406006, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.588423728942871, "eval/reward_neg_acc": 0.944388210773468, "eval/reward_neg_loss": 0.04028526693582535, "eval/reward_pos_acc": 0.11428571492433548, "eval/reward_pos_loss": 13.046368598937988, "eval/reward_pred": 0.12855809926986694, "eval/reward_rate": 0.0341796875, "replay/size": 101621.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.7918124772598645e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3620779400192597e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8328428268432617e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.93232464790344, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.7195236682892, "timer/replay._sample_frac": 1.302692279423242, "timer/replay._sample_avg": 0.015795582295774952, "timer/replay._sample_min": 0.0004897117614746094, "timer/replay._sample_max": 0.049451589584350586, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.766551494598389, "timer/env.step_frac": 0.0225602608939926, "timer/env.step_avg": 0.004376812092236991, "timer/env.step_min": 0.002418994903564453, "timer/env.step_max": 0.035744428634643555, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.97632431983948, "timer/agent.policy_frac": 0.3700045483597568, "timer/agent.policy_avg": 0.07178287472175904, "timer/agent.policy_min": 0.0030813217163085938, "timer/agent.policy_max": 0.08778023719787598, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15369653701782227, "timer/dataset_train_frac": 0.0005124373879949409, "timer/dataset_train_avg": 9.941561256004027e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.000232696533203125, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.89064598083496, "timer/agent.train_frac": 0.603104871051115, "timer/agent.train_avg": 0.11700559248436931, "timer/agent.train_min": 0.10169768333435059, "timer/agent.train_max": 0.204179048538208, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19874048233032227, "timer/agent.report_frac": 0.0006626177507330285, "timer/agent.report_avg": 0.09937024116516113, "timer/agent.report_min": 0.09700727462768555, "timer/agent.report_max": 0.10173320770263672, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.841255187988281e-05, "timer/dataset_eval_frac": 1.9475243939930274e-07, "timer/dataset_eval_avg": 5.841255187988281e-05, "timer/dataset_eval_min": 5.841255187988281e-05, "timer/dataset_eval_max": 5.841255187988281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61678022487121}
{"step": 281652, "episode/length": 639.0, "episode/score": 700.0, "episode/reward_rate": 0.1078125}
{"step": 284292, "episode/length": 659.0, "episode/score": 640.0, "episode/reward_rate": 0.09545454545454546}
{"step": 286880, "episode/length": 646.0, "episode/score": 660.0, "episode/reward_rate": 0.10046367851622875}
{"step": 286944, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.200689538732751, "train/action_min": 0.0, "train/action_std": 4.153558833258493, "train/actor_opt_grad_norm": 0.00702487130486104, "train/actor_opt_grad_steps": 69865.0, "train/actor_opt_loss": 0.0004894637215518553, "train/adv_mag": 0.6398322784474918, "train/adv_max": 0.6236465693294228, "train/adv_mean": 0.0017810293334859326, "train/adv_min": -0.31023105790282224, "train/adv_std": 0.029331344179809093, "train/cont_avg": 0.9981610186688312, "train/cont_loss_mean": 0.0007891735791519301, "train/cont_loss_std": 0.01864663765323076, "train/cont_neg_acc": 0.8888461553133451, "train/cont_neg_loss": 0.28224110667624003, "train/cont_pos_acc": 0.9998792003501545, "train/cont_pos_loss": 0.00033590076413378737, "train/cont_pred": 0.9981458009063423, "train/cont_rate": 0.9981610186688312, "train/dyn_loss_mean": 2.923788722459372, "train/dyn_loss_std": 5.90859689340963, "train/extr_critic_critic_opt_grad_norm": 1.4223473532633348, "train/extr_critic_critic_opt_grad_steps": 69865.0, "train/extr_critic_critic_opt_loss": 1.4959113675278504, "train/extr_critic_mag": 321.6367211279931, "train/extr_critic_max": 321.6367211279931, "train/extr_critic_mean": 116.20504651750836, "train/extr_critic_min": 0.13846803021121334, "train/extr_critic_std": 82.80140834659726, "train/extr_return_normed_mag": 1.377578498481156, "train/extr_return_normed_max": 1.377578498481156, "train/extr_return_normed_mean": 0.4208940543331109, "train/extr_return_normed_min": -0.020397276393827293, "train/extr_return_normed_std": 0.3157729778390426, "train/extr_return_rate": 0.9482993073277659, "train/extr_return_raw_mag": 369.00309575068485, "train/extr_return_raw_max": 369.00309575068485, "train/extr_return_raw_mean": 116.67464813628754, "train/extr_return_raw_min": 0.2716938088485115, "train/extr_return_raw_std": 83.32446871175395, "train/extr_reward_mag": 80.01879005308275, "train/extr_reward_max": 80.01879005308275, "train/extr_reward_mean": 0.8086110068993135, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.4097304212582578, "train/image_loss_mean": 1.1846621493240455, "train/image_loss_std": 0.8993211373106226, "train/model_loss_mean": 3.0000748882045993, "train/model_loss_std": 4.144405405242722, "train/model_opt_grad_norm": 10.83121413069886, "train/model_opt_grad_steps": 69865.0, "train/model_opt_loss": 3.0000748882045993, "train/policy_entropy_mag": 2.655952801952114, "train/policy_entropy_max": 2.655952801952114, "train/policy_entropy_mean": 0.9154978200986787, "train/policy_entropy_min": 0.08019329801008299, "train/policy_entropy_std": 0.725159371828104, "train/policy_logprob_mag": 7.495528896133621, "train/policy_logprob_max": -0.009489756404095656, "train/policy_logprob_mean": -0.916602901824109, "train/policy_logprob_min": -7.495528896133621, "train/policy_logprob_std": 1.2823090158499681, "train/policy_randomness_mag": 0.918896624794254, "train/policy_randomness_max": 0.918896624794254, "train/policy_randomness_mean": 0.3167405142025514, "train/policy_randomness_min": 0.027744977529366294, "train/policy_randomness_std": 0.250887929038568, "train/post_ent_mag": 61.80454506812158, "train/post_ent_max": 61.80454506812158, "train/post_ent_mean": 42.778015855070834, "train/post_ent_min": 14.334346535918, "train/post_ent_std": 4.881034042928126, "train/prior_ent_mag": 82.95313604775961, "train/prior_ent_max": 82.95313604775961, "train/prior_ent_mean": 45.725556237357004, "train/prior_ent_min": 18.34051143348991, "train/prior_ent_std": 6.814980147720932, "train/rep_loss_mean": 2.923788722459372, "train/rep_loss_std": 5.90859689340963, "train/reward_avg": 0.881252536525974, "train/reward_loss_mean": 0.060350351652444956, "train/reward_loss_std": 0.23818095284816507, "train/reward_max_data": 65.84415584415585, "train/reward_max_pred": 43.55947132234449, "train/reward_neg_acc": 0.9767046106326116, "train/reward_neg_loss": 0.0070873299990054945, "train/reward_pos_acc": 0.9936281477476095, "train/reward_pos_loss": 0.6581945957301499, "train/reward_pred": 0.8121231366674622, "train/reward_rate": 0.08234197443181818, "train_stats/mean_log_entropy": 0.9845247864723206, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 2.7313602913636714e-05, "report/cont_loss_std": 0.0005838657962158322, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0060163880698382854, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.715929081721697e-06, "report/cont_pred": 0.9970781207084656, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.894509792327881, "report/dyn_loss_std": 6.271770477294922, "report/image_loss_mean": 1.2004063129425049, "report/image_loss_std": 0.9845684766769409, "report/model_loss_mean": 2.9775009155273438, "report/model_loss_std": 4.437859058380127, "report/post_ent_mag": 63.03635025024414, "report/post_ent_max": 63.03635025024414, "report/post_ent_mean": 41.25841522216797, "report/post_ent_min": 10.796880722045898, "report/post_ent_std": 5.5844407081604, "report/prior_ent_mag": 83.24148559570312, "report/prior_ent_max": 83.24148559570312, "report/prior_ent_mean": 44.293853759765625, "report/prior_ent_min": 13.007469177246094, "report/prior_ent_std": 7.50648832321167, "report/rep_loss_mean": 2.894509792327881, "report/rep_loss_std": 6.271770477294922, "report/reward_avg": 1.123046875, "report/reward_loss_mean": 0.040361419320106506, "report/reward_loss_std": 0.16225576400756836, "report/reward_max_data": 500.0, "report/reward_max_pred": 86.8725357055664, "report/reward_neg_acc": 0.9864442348480225, "report/reward_neg_loss": 0.005758445709943771, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5508883595466614, "report/reward_pred": 0.7285928130149841, "report/reward_rate": 0.0634765625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.525634610923589e-07, "eval/cont_loss_std": 4.3569111767283175e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.525634610923589e-07, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.913198471069336, "eval/dyn_loss_std": 11.82658863067627, "eval/image_loss_mean": 4.845282077789307, "eval/image_loss_std": 2.880607843399048, "eval/model_loss_mean": 15.427663803100586, "eval/model_loss_std": 9.4639892578125, "eval/post_ent_mag": 61.449642181396484, "eval/post_ent_max": 61.449642181396484, "eval/post_ent_mean": 44.78279495239258, "eval/post_ent_min": 31.53133773803711, "eval/post_ent_std": 4.6052117347717285, "eval/prior_ent_mag": 83.24148559570312, "eval/prior_ent_max": 83.24148559570312, "eval/prior_ent_mean": 49.16012954711914, "eval/prior_ent_min": 32.49030303955078, "eval/prior_ent_std": 5.727134704589844, "eval/rep_loss_mean": 16.913198471069336, "eval/rep_loss_std": 11.82658863067627, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.4344618320465088, "eval/reward_loss_std": 2.667515277862549, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.988356590270996, "eval/reward_neg_acc": 0.9478958249092102, "eval/reward_neg_loss": 0.050869736820459366, "eval/reward_pos_acc": 0.07692307978868484, "eval/reward_pos_loss": 15.158496856689453, "eval/reward_pred": 0.12311968207359314, "eval/reward_rate": 0.025390625, "replay/size": 103167.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.848872551171622e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3465213590575066e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2313930988312, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 393.8556578159332, "timer/replay._sample_frac": 1.3118403567020804, "timer/replay._sample_avg": 0.01592236650290804, "timer/replay._sample_min": 0.0004584789276123047, "timer/replay._sample_max": 0.23675107955932617, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.754755258560181, "timer/env.step_frac": 0.022498497538319145, "timer/env.step_avg": 0.004369181926623661, "timer/env.step_min": 0.0023567676544189453, "timer/env.step_max": 0.04963397979736328, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.1591100692749, "timer/agent.policy_frac": 0.370244793264118, "timer/agent.policy_avg": 0.0719011061250161, "timer/agent.policy_min": 0.0029947757720947266, "timer/agent.policy_max": 0.0919044017791748, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15983295440673828, "timer/dataset_train_frac": 0.0005323658953749848, "timer/dataset_train_avg": 0.00010338483467447496, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.00025177001953125, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.91848587989807, "timer/agent.train_frac": 0.6025968304398558, "timer/agent.train_avg": 0.11702360018104661, "timer/agent.train_min": 0.10384964942932129, "timer/agent.train_max": 0.24364662170410156, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2636435031890869, "timer/agent.report_frac": 0.0008781343631919926, "timer/agent.report_avg": 0.13182175159454346, "timer/agent.report_min": 0.10107612609863281, "timer/agent.report_max": 0.1625673770904541, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.269050598144531e-05, "timer/dataset_eval_frac": 1.7549965524125078e-07, "timer/dataset_eval_avg": 5.269050598144531e-05, "timer/dataset_eval_min": 5.269050598144531e-05, "timer/dataset_eval_max": 5.269050598144531e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09554290771484375, "timer/agent.save_frac": 0.00031823090426587276, "timer/agent.save_avg": 0.09554290771484375, "timer/agent.save_min": 0.09554290771484375, "timer/agent.save_max": 0.09554290771484375, "fps": 20.59604042788215}
{"step": 288992, "episode/length": 527.0, "episode/score": 620.0, "episode/reward_rate": 0.11553030303030302}
{"step": 290884, "episode/length": 472.0, "episode/score": 560.0, "episode/reward_rate": 0.11627906976744186}
{"step": 292820, "episode/length": 483.0, "episode/score": 1030.0, "episode/reward_rate": 0.10950413223140495}
{"step": 293132, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.19643318422379, "train/action_min": 0.0, "train/action_std": 4.111739164783109, "train/actor_opt_grad_norm": 0.007345517654152167, "train/actor_opt_grad_steps": 71410.0, "train/actor_opt_loss": 0.0006100510991546475, "train/adv_mag": 0.6772766563200181, "train/adv_max": 0.6529999012908628, "train/adv_mean": 0.0020413816388041126, "train/adv_min": -0.33138801715066357, "train/adv_std": 0.030597074654313827, "train/cont_avg": 0.9982610887096774, "train/cont_loss_mean": 0.0007838205202331998, "train/cont_loss_std": 0.019271334333565128, "train/cont_neg_acc": 0.9252487567823324, "train/cont_neg_loss": 0.2539396634670694, "train/cont_pos_acc": 0.9998672977570564, "train/cont_pos_loss": 0.0003475325444920112, "train/cont_pred": 0.9981969768001188, "train/cont_rate": 0.9982610887096774, "train/dyn_loss_mean": 2.9216229669509395, "train/dyn_loss_std": 5.934785919804727, "train/extr_critic_critic_opt_grad_norm": 1.423055842614943, "train/extr_critic_critic_opt_grad_steps": 71410.0, "train/extr_critic_critic_opt_loss": 1.4916200614744617, "train/extr_critic_mag": 320.3017407817225, "train/extr_critic_max": 320.3017407817225, "train/extr_critic_mean": 117.51922755087575, "train/extr_critic_min": 0.2303155383756084, "train/extr_critic_std": 82.73490509525422, "train/extr_return_normed_mag": 1.4345818673410724, "train/extr_return_normed_max": 1.4345818673410724, "train/extr_return_normed_mean": 0.42842228374173563, "train/extr_return_normed_min": -0.021714840227016998, "train/extr_return_normed_std": 0.31820628546899365, "train/extr_return_rate": 0.9538920183335581, "train/extr_return_raw_mag": 381.5113056798135, "train/extr_return_raw_max": 381.5113056798135, "train/extr_return_raw_mean": 118.05359772712954, "train/extr_return_raw_min": 0.18753437038263185, "train/extr_return_raw_std": 83.32445828837733, "train/extr_reward_mag": 81.02662879574683, "train/extr_reward_max": 81.02662879574683, "train/extr_reward_mean": 0.8276257107334752, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.561405531821712, "train/image_loss_mean": 1.176967239379883, "train/image_loss_std": 0.9081562134527391, "train/model_loss_mean": 2.993354059034778, "train/model_loss_std": 4.16800868895746, "train/model_opt_grad_norm": 10.699222195533014, "train/model_opt_grad_steps": 71410.0, "train/model_opt_loss": 2.993354059034778, "train/policy_entropy_mag": 2.6575594748220137, "train/policy_entropy_max": 2.6575594748220137, "train/policy_entropy_mean": 0.8966142785164618, "train/policy_entropy_min": 0.08019265460391198, "train/policy_entropy_std": 0.7232825386908747, "train/policy_logprob_mag": 7.495526064595868, "train/policy_logprob_max": -0.009489675136583466, "train/policy_logprob_mean": -0.8979068798403587, "train/policy_logprob_min": -7.495526064595868, "train/policy_logprob_std": 1.2800243270012641, "train/policy_randomness_mag": 0.9194524961133157, "train/policy_randomness_max": 0.9194524961133157, "train/policy_randomness_mean": 0.31020725907817964, "train/policy_randomness_min": 0.027744755016699915, "train/policy_randomness_std": 0.25023858931756787, "train/post_ent_mag": 62.55541406446888, "train/post_ent_max": 62.55541406446888, "train/post_ent_mean": 42.71714603054908, "train/post_ent_min": 13.52490743821667, "train/post_ent_std": 4.977707269114832, "train/prior_ent_mag": 83.11704879268524, "train/prior_ent_max": 83.11704879268524, "train/prior_ent_mean": 45.66119621030746, "train/prior_ent_min": 17.39877369788385, "train/prior_ent_std": 6.913881468003796, "train/rep_loss_mean": 2.9216229669509395, "train/rep_loss_std": 5.934785919804727, "train/reward_avg": 0.9218119959677419, "train/reward_loss_mean": 0.06262921731798879, "train/reward_loss_std": 0.24562521567267756, "train/reward_max_data": 82.38709677419355, "train/reward_max_pred": 46.39346802619196, "train/reward_neg_acc": 0.9747176908677624, "train/reward_neg_loss": 0.007966161739351529, "train/reward_pos_acc": 0.9931584869661639, "train/reward_pos_loss": 0.6685431315052894, "train/reward_pred": 0.8221996849583041, "train/reward_rate": 0.08342363911290322, "train_stats/mean_log_entropy": 0.8182403643925985, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.843319063889794e-05, "report/cont_loss_std": 0.0011233689729124308, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.03591960296034813, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.3587368761800462e-06, "report/cont_pred": 0.9990545511245728, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.1318588256835938, "report/dyn_loss_std": 5.712836742401123, "report/image_loss_mean": 1.2454864978790283, "report/image_loss_std": 1.0076608657836914, "report/model_loss_mean": 3.1870381832122803, "report/model_loss_std": 4.090170860290527, "report/post_ent_mag": 64.49871826171875, "report/post_ent_max": 64.49871826171875, "report/post_ent_mean": 42.050174713134766, "report/post_ent_min": 12.195119857788086, "report/post_ent_std": 4.419896125793457, "report/prior_ent_mag": 83.00481414794922, "report/prior_ent_max": 83.00481414794922, "report/prior_ent_mean": 45.30493927001953, "report/prior_ent_min": 17.166547775268555, "report/prior_ent_std": 6.762365341186523, "report/rep_loss_mean": 3.1318588256835938, "report/rep_loss_std": 5.712836742401123, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.06239800527691841, "report/reward_loss_std": 0.22585457563400269, "report/reward_max_data": 20.0, "report/reward_max_pred": 20.001468658447266, "report/reward_neg_acc": 0.9721328616142273, "report/reward_neg_loss": 0.00616670586168766, "report/reward_pos_acc": 0.9890109896659851, "report/reward_pos_loss": 0.6389233469963074, "report/reward_pred": 0.8517013788223267, "report/reward_rate": 0.0888671875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.018284685909748077, "eval/cont_loss_std": 0.4150215983390808, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.240573883056641, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.759267888701288e-06, "eval/cont_pred": 0.9991413354873657, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 16.89258575439453, "eval/dyn_loss_std": 13.511330604553223, "eval/image_loss_mean": 4.959494590759277, "eval/image_loss_std": 3.7256557941436768, "eval/model_loss_mean": 15.580949783325195, "eval/model_loss_std": 11.537623405456543, "eval/post_ent_mag": 64.49871826171875, "eval/post_ent_max": 64.49871826171875, "eval/post_ent_mean": 43.97898864746094, "eval/post_ent_min": 28.668537139892578, "eval/post_ent_std": 4.619466304779053, "eval/prior_ent_mag": 83.00481414794922, "eval/prior_ent_max": 83.00481414794922, "eval/prior_ent_mean": 48.57511901855469, "eval/prior_ent_min": 30.998382568359375, "eval/prior_ent_std": 6.592249870300293, "eval/rep_loss_mean": 16.89258575439453, "eval/rep_loss_std": 13.511330604553223, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.46761825680732727, "eval/reward_loss_std": 2.584717273712158, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999898910522461, "eval/reward_neg_acc": 0.937688410282135, "eval/reward_neg_loss": 0.11620928347110748, "eval/reward_pos_acc": 0.20689654350280762, "eval/reward_pos_loss": 12.524582862854004, "eval/reward_pred": 0.2327926903963089, "eval/reward_rate": 0.0283203125, "replay/size": 104714.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.958705741818212e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3422892797971897e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0907735824585, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 395.04553174972534, "timer/replay._sample_frac": 1.3164201185984656, "timer/replay._sample_avg": 0.01596014591749052, "timer/replay._sample_min": 0.0004782676696777344, "timer/replay._sample_max": 0.048715829849243164, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.6399102210998535, "timer/env.step_frac": 0.02212633911343945, "timer/env.step_avg": 0.004292120375630157, "timer/env.step_min": 0.0022382736206054688, "timer/env.step_max": 0.028732776641845703, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.06045627593994, "timer/agent.policy_frac": 0.3700895397419572, "timer/agent.policy_avg": 0.07179085732122814, "timer/agent.policy_min": 0.002841472625732422, "timer/agent.policy_max": 0.0891873836517334, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1639864444732666, "timer/dataset_train_frac": 0.0005464561356405936, "timer/dataset_train_avg": 0.00010600287296268042, "timer/dataset_train_min": 6.389617919921875e-05, "timer/dataset_train_max": 0.00030541419982910156, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.0036063194275, "timer/agent.train_frac": 0.6031628502223564, "timer/agent.train_avg": 0.1170029775820475, "timer/agent.train_min": 0.10233378410339355, "timer/agent.train_max": 0.20676422119140625, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26103806495666504, "timer/agent.report_frac": 0.0008698636810469529, "timer/agent.report_avg": 0.13051903247833252, "timer/agent.report_min": 0.0970604419708252, "timer/agent.report_max": 0.16397762298583984, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.9591064453125e-05, "timer/dataset_eval_frac": 1.6525354598913865e-07, "timer/dataset_eval_avg": 4.9591064453125e-05, "timer/dataset_eval_min": 4.9591064453125e-05, "timer/dataset_eval_max": 4.9591064453125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61911201895265}
{"step": 296080, "episode/length": 814.0, "episode/score": 740.0, "episode/reward_rate": 0.09079754601226994}
{"step": 297788, "episode/length": 426.0, "episode/score": 990.0, "episode/reward_rate": 0.117096018735363}
{"step": 299308, "episode/length": 379.0, "episode/score": 980.0, "episode/reward_rate": 0.12631578947368421}
{"step": 299320, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.017879363029234, "train/action_min": 0.0, "train/action_std": 4.191335613496842, "train/actor_opt_grad_norm": 0.008234808027684207, "train/actor_opt_grad_steps": 72960.0, "train/actor_opt_loss": 0.000489318562035952, "train/adv_mag": 0.8546199733211148, "train/adv_max": 0.8133936153304192, "train/adv_mean": 0.0021396845356526505, "train/adv_min": -0.36436678137510053, "train/adv_std": 0.03450211087061513, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0008465813136290711, "train/cont_loss_std": 0.020725668582362702, "train/cont_neg_acc": 0.8782716068956588, "train/cont_neg_loss": 0.3107394943915029, "train/cont_pos_acc": 0.99993051790422, "train/cont_pos_loss": 0.0002567312264671368, "train/cont_pred": 0.9983140530124788, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.9170265643827378, "train/dyn_loss_std": 5.931807927162416, "train/extr_critic_critic_opt_grad_norm": 1.461367041064847, "train/extr_critic_critic_opt_grad_steps": 72960.0, "train/extr_critic_critic_opt_loss": 1.4874284951917587, "train/extr_critic_mag": 322.74703221474925, "train/extr_critic_max": 322.74703221474925, "train/extr_critic_mean": 119.00098158313382, "train/extr_critic_min": 0.15065393678603634, "train/extr_critic_std": 81.85552862844159, "train/extr_return_normed_mag": 1.5276869127827306, "train/extr_return_normed_max": 1.5276869127827306, "train/extr_return_normed_mean": 0.4306281751201999, "train/extr_return_normed_min": -0.021806114316437274, "train/extr_return_normed_std": 0.3127424450651292, "train/extr_return_rate": 0.9579318358052161, "train/extr_return_raw_mag": 409.030122523154, "train/extr_return_raw_max": 409.030122523154, "train/extr_return_raw_mean": 119.56571620818107, "train/extr_return_raw_min": 0.23165969251121785, "train/extr_return_raw_std": 82.52996333952873, "train/extr_reward_mag": 121.9066431660806, "train/extr_reward_max": 121.9066431660806, "train/extr_reward_mean": 0.822126954601657, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.847612047964527, "train/image_loss_mean": 1.1653106151088592, "train/image_loss_std": 0.8881922598808042, "train/model_loss_mean": 2.975273572244952, "train/model_loss_std": 4.143240174939556, "train/model_opt_grad_norm": 10.375437010488202, "train/model_opt_grad_steps": 72960.0, "train/model_opt_loss": 2.975273572244952, "train/policy_entropy_mag": 2.6608877366588963, "train/policy_entropy_max": 2.6608877366588963, "train/policy_entropy_mean": 0.9016386493559807, "train/policy_entropy_min": 0.08019249775717335, "train/policy_entropy_std": 0.7252161002928211, "train/policy_logprob_mag": 7.4955297039401145, "train/policy_logprob_max": -0.009489666700603501, "train/policy_logprob_mean": -0.9022207940778425, "train/policy_logprob_min": -7.4955297039401145, "train/policy_logprob_std": 1.2836075713557582, "train/policy_randomness_mag": 0.9206039959384549, "train/policy_randomness_max": 0.9206039959384549, "train/policy_randomness_mean": 0.3119455720147779, "train/policy_randomness_min": 0.02774470069956395, "train/policy_randomness_std": 0.2509075545495556, "train/post_ent_mag": 62.56265076668032, "train/post_ent_max": 62.56265076668032, "train/post_ent_mean": 42.647002410888675, "train/post_ent_min": 13.464933881452007, "train/post_ent_std": 4.987528361043623, "train/prior_ent_mag": 83.22760689027848, "train/prior_ent_max": 83.22760689027848, "train/prior_ent_mean": 45.58513757028887, "train/prior_ent_min": 17.06060100063201, "train/prior_ent_std": 6.927260331184633, "train/rep_loss_mean": 2.9170265643827378, "train/rep_loss_std": 5.931807927162416, "train/reward_avg": 0.9216859879032258, "train/reward_loss_mean": 0.05890045000180121, "train/reward_loss_std": 0.23061558911877295, "train/reward_max_data": 103.93548387096774, "train/reward_max_pred": 66.56947382650068, "train/reward_neg_acc": 0.9768879079049634, "train/reward_neg_loss": 0.007209650162352069, "train/reward_pos_acc": 0.9950816146789059, "train/reward_pos_loss": 0.6447401392844415, "train/reward_pred": 0.8331693257054975, "train/reward_rate": 0.08133190524193548, "train_stats/mean_log_entropy": 0.829317053159078, "report/cont_avg": 1.0, "report/cont_loss_mean": 6.32757576113363e-07, "report/cont_loss_std": 1.1501147128001321e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.32757576113363e-07, "report/cont_pred": 0.9999994039535522, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.5692529678344727, "report/dyn_loss_std": 5.668505668640137, "report/image_loss_mean": 1.1001691818237305, "report/image_loss_std": 0.8842169642448425, "report/model_loss_mean": 2.6944832801818848, "report/model_loss_std": 4.02091121673584, "report/post_ent_mag": 62.34385681152344, "report/post_ent_max": 62.34385681152344, "report/post_ent_mean": 43.291534423828125, "report/post_ent_min": 13.146318435668945, "report/post_ent_std": 4.565903663635254, "report/prior_ent_mag": 83.46818542480469, "report/prior_ent_max": 83.46818542480469, "report/prior_ent_mean": 45.74540710449219, "report/prior_ent_min": 17.497615814208984, "report/prior_ent_std": 6.305692672729492, "report/rep_loss_mean": 2.5692529678344727, "report/rep_loss_std": 5.668505668640137, "report/reward_avg": 0.732421875, "report/reward_loss_mean": 0.05276202782988548, "report/reward_loss_std": 0.2123986780643463, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99455451965332, "report/reward_neg_acc": 0.9768664836883545, "report/reward_neg_loss": 0.008294910192489624, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6320527791976929, "report/reward_pred": 0.7052417993545532, "report/reward_rate": 0.0712890625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00384716154076159, "eval/cont_loss_std": 0.12301256507635117, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.938326120376587, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1413495712986332e-06, "eval/cont_pred": 0.9999798536300659, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.612525939941406, "eval/dyn_loss_std": 12.5266695022583, "eval/image_loss_mean": 4.937771797180176, "eval/image_loss_std": 3.3399839401245117, "eval/model_loss_mean": 15.409151077270508, "eval/model_loss_std": 10.165397644042969, "eval/post_ent_mag": 63.6624755859375, "eval/post_ent_max": 63.6624755859375, "eval/post_ent_mean": 44.27608871459961, "eval/post_ent_min": 27.959686279296875, "eval/post_ent_std": 4.735470771789551, "eval/prior_ent_mag": 83.46818542480469, "eval/prior_ent_max": 83.46818542480469, "eval/prior_ent_mean": 49.56355667114258, "eval/prior_ent_min": 30.728931427001953, "eval/prior_ent_std": 6.738136291503906, "eval/rep_loss_mean": 16.612525939941406, "eval/rep_loss_std": 12.5266695022583, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.5000156164169312, "eval/reward_loss_std": 2.5442984104156494, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997787475585938, "eval/reward_neg_acc": 0.9339431524276733, "eval/reward_neg_loss": 0.07164077460765839, "eval/reward_pos_acc": 0.17499999701976776, "eval/reward_pos_loss": 11.03803825378418, "eval/reward_pred": 0.1814468652009964, "eval/reward_rate": 0.0390625, "replay/size": 106261.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.852056965646084e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3266271672560156e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 8.001923561096191e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05573987960815, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 385.5248107910156, "timer/replay._sample_frac": 1.2848439791410102, "timer/replay._sample_avg": 0.015575501405584018, "timer/replay._sample_min": 0.0006430149078369141, "timer/replay._sample_max": 0.054168701171875, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.694981336593628, "timer/env.step_frac": 0.02231245880941943, "timer/env.step_avg": 0.004327719028179462, "timer/env.step_min": 0.0020422935485839844, "timer/env.step_max": 0.03324151039123535, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.23111534118652, "timer/agent.policy_frac": 0.3707015082791483, "timer/agent.policy_avg": 0.07190117345907339, "timer/agent.policy_min": 0.0028977394104003906, "timer/agent.policy_max": 0.08672690391540527, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.17122292518615723, "timer/dataset_train_frac": 0.0005706370598171436, "timer/dataset_train_avg": 0.00011068062390831107, "timer/dataset_train_min": 6.222724914550781e-05, "timer/dataset_train_max": 0.010188102722167969, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.81319975852966, "timer/agent.train_frac": 0.6025987032645256, "timer/agent.train_avg": 0.1168798964179248, "timer/agent.train_min": 0.1033174991607666, "timer/agent.train_max": 0.2080979347229004, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.1930396556854248, "timer/agent.report_frac": 0.0006433459855254841, "timer/agent.report_avg": 0.0965198278427124, "timer/agent.report_min": 0.096343994140625, "timer/agent.report_max": 0.0966956615447998, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.173683166503906e-05, "timer/dataset_eval_frac": 1.7242406922726261e-07, "timer/dataset_eval_avg": 5.173683166503906e-05, "timer/dataset_eval_min": 5.173683166503906e-05, "timer/dataset_eval_max": 5.173683166503906e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.621425071169824}
{"step": 301824, "episode/length": 628.0, "episode/score": 670.0, "episode/reward_rate": 0.10492845786963434}
{"step": 304004, "episode/length": 544.0, "episode/score": 670.0, "episode/reward_rate": 0.12293577981651377}
{"step": 305508, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.902214545708198, "train/action_min": 0.0, "train/action_std": 4.214772667203631, "train/actor_opt_grad_norm": 0.00906540537041358, "train/actor_opt_grad_steps": 74505.0, "train/actor_opt_loss": 0.0007453535224184835, "train/adv_mag": 0.822779514185794, "train/adv_max": 0.7991984406268442, "train/adv_mean": 0.002550598405537425, "train/adv_min": -0.3470420514221315, "train/adv_std": 0.035519819247064655, "train/cont_avg": 0.9981927252435064, "train/cont_loss_mean": 0.0007302281066823579, "train/cont_loss_std": 0.017463756346592016, "train/cont_neg_acc": 0.8846055994962008, "train/cont_neg_loss": 0.27001935011134864, "train/cont_pos_acc": 0.9999109816241574, "train/cont_pos_loss": 0.0002837206552779332, "train/cont_pred": 0.9981991865418174, "train/cont_rate": 0.9981927252435064, "train/dyn_loss_mean": 2.9048353572944543, "train/dyn_loss_std": 5.95145954714193, "train/extr_critic_critic_opt_grad_norm": 1.458955524416713, "train/extr_critic_critic_opt_grad_steps": 74505.0, "train/extr_critic_critic_opt_loss": 1.4846176133527385, "train/extr_critic_mag": 321.43612254749644, "train/extr_critic_max": 321.43612254749644, "train/extr_critic_mean": 122.3843257458179, "train/extr_critic_min": 0.03706397019423448, "train/extr_critic_std": 82.65181816398324, "train/extr_return_normed_mag": 1.5239859366571749, "train/extr_return_normed_max": 1.5239859366571749, "train/extr_return_normed_mean": 0.4413956074745624, "train/extr_return_normed_min": -0.02323031598435981, "train/extr_return_normed_std": 0.3154952912168069, "train/extr_return_rate": 0.9547310951468232, "train/extr_return_raw_mag": 409.6209330372996, "train/extr_return_raw_max": 409.6209330372996, "train/extr_return_raw_mean": 123.05916545917461, "train/extr_return_raw_min": 0.006350087873522773, "train/extr_return_raw_std": 83.56245625483525, "train/extr_reward_mag": 123.22695670189796, "train/extr_reward_max": 123.22695670189796, "train/extr_reward_mean": 0.8555883215619372, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.819475283870449, "train/image_loss_mean": 1.1470358832315966, "train/image_loss_std": 0.9004578607810008, "train/model_loss_mean": 2.952846850667681, "train/model_loss_std": 4.1635713840459845, "train/model_opt_grad_norm": 10.960843290601458, "train/model_opt_grad_steps": 74505.0, "train/model_opt_loss": 2.952846850667681, "train/policy_entropy_mag": 2.655902582329589, "train/policy_entropy_max": 2.655902582329589, "train/policy_entropy_mean": 0.895122625224002, "train/policy_entropy_min": 0.08019237486379487, "train/policy_entropy_std": 0.7266915831472966, "train/policy_logprob_mag": 7.495534478843986, "train/policy_logprob_max": -0.009489653045432521, "train/policy_logprob_mean": -0.8952710868476274, "train/policy_logprob_min": -7.495534478843986, "train/policy_logprob_std": 1.2803118902367432, "train/policy_randomness_mag": 0.9188792508143884, "train/policy_randomness_max": 0.9188792508143884, "train/policy_randomness_mean": 0.3096911817208513, "train/policy_randomness_min": 0.027744658267149676, "train/policy_randomness_std": 0.2514180373642352, "train/post_ent_mag": 62.400226444393006, "train/post_ent_max": 62.400226444393006, "train/post_ent_mean": 42.60302771531142, "train/post_ent_min": 13.510307151001768, "train/post_ent_std": 5.009362353907003, "train/prior_ent_mag": 83.29283662275834, "train/prior_ent_max": 83.29283662275834, "train/prior_ent_mean": 45.52055267234901, "train/prior_ent_min": 16.941466672079905, "train/prior_ent_std": 6.955524974055105, "train/rep_loss_mean": 2.9048353572944543, "train/rep_loss_std": 5.95145954714193, "train/reward_avg": 0.9184126420454546, "train/reward_loss_mean": 0.06217953896561226, "train/reward_loss_std": 0.23840821940790524, "train/reward_max_data": 63.701298701298704, "train/reward_max_pred": 42.34087176137156, "train/reward_neg_acc": 0.9761426096612756, "train/reward_neg_loss": 0.0073260379178062465, "train/reward_pos_acc": 0.9938248771351653, "train/reward_pos_loss": 0.6552633654761624, "train/reward_pred": 0.8372923265416901, "train/reward_rate": 0.08489752435064934, "train_stats/mean_log_entropy": 0.789997935295105, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 3.259630102547817e-05, "report/cont_loss_std": 0.0009285058476962149, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.010513406246900558, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.8005813444688101e-06, "report/cont_pred": 0.9970989227294922, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.4303431510925293, "report/dyn_loss_std": 5.540643215179443, "report/image_loss_mean": 0.8578879833221436, "report/image_loss_std": 0.6895243525505066, "report/model_loss_mean": 2.3886189460754395, "report/model_loss_std": 3.7811975479125977, "report/post_ent_mag": 62.644508361816406, "report/post_ent_max": 62.644508361816406, "report/post_ent_mean": 42.265472412109375, "report/post_ent_min": 13.071413040161133, "report/post_ent_std": 4.84191370010376, "report/prior_ent_mag": 83.30451965332031, "report/prior_ent_max": 83.30451965332031, "report/prior_ent_mean": 45.165008544921875, "report/prior_ent_min": 15.938511848449707, "report/prior_ent_std": 7.060533046722412, "report/rep_loss_mean": 2.4303431510925293, "report/rep_loss_std": 5.540643215179443, "report/reward_avg": 1.181640625, "report/reward_loss_mean": 0.07249249517917633, "report/reward_loss_std": 0.216944620013237, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.998323440551758, "report/reward_neg_acc": 0.9867549538612366, "report/reward_neg_loss": 0.0054997908882796764, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5868602991104126, "report/reward_pred": 1.149418830871582, "report/reward_rate": 0.115234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 8.305159440169518e-07, "eval/cont_loss_std": 2.3480868549086154e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.305159440169518e-07, "eval/cont_pred": 0.9999992251396179, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 17.57724380493164, "eval/dyn_loss_std": 13.138669967651367, "eval/image_loss_mean": 4.677587032318115, "eval/image_loss_std": 3.00982666015625, "eval/model_loss_mean": 15.678855895996094, "eval/model_loss_std": 10.143139839172363, "eval/post_ent_mag": 61.742034912109375, "eval/post_ent_max": 61.742034912109375, "eval/post_ent_mean": 43.15085220336914, "eval/post_ent_min": 27.569435119628906, "eval/post_ent_std": 4.122041702270508, "eval/prior_ent_mag": 83.30451965332031, "eval/prior_ent_max": 83.30451965332031, "eval/prior_ent_mean": 48.3599853515625, "eval/prior_ent_min": 32.111202239990234, "eval/prior_ent_std": 6.1271209716796875, "eval/rep_loss_mean": 17.57724380493164, "eval/rep_loss_std": 13.138669967651367, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.4549217224121094, "eval/reward_loss_std": 2.6794323921203613, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.92269229888916, "eval/reward_neg_acc": 0.9465725421905518, "eval/reward_neg_loss": 0.0353582501411438, "eval/reward_pos_acc": 0.0625, "eval/reward_pos_loss": 13.461390495300293, "eval/reward_pred": 0.10467830300331116, "eval/reward_rate": 0.03125, "replay/size": 107808.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.916631874917936e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3482131415516929e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0116567611694336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10191464424133, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 390.9812927246094, "timer/replay._sample_frac": 1.3028283847775575, "timer/replay._sample_avg": 0.015795947508266378, "timer/replay._sample_min": 0.0005958080291748047, "timer/replay._sample_max": 0.04322409629821777, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.727290153503418, "timer/env.step_frac": 0.022416685216681633, "timer/env.step_avg": 0.004348603848418499, "timer/env.step_min": 0.002519845962524414, "timer/env.step_max": 0.0313107967376709, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.55479598045349, "timer/agent.policy_frac": 0.3717230398636316, "timer/agent.policy_avg": 0.07211040464153426, "timer/agent.policy_min": 0.0027878284454345703, "timer/agent.policy_max": 0.29077720642089844, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15439558029174805, "timer/dataset_train_frac": 0.0005144771584505808, "timer/dataset_train_avg": 9.980321932239693e-05, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.000293731689453125, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.48123288154602, "timer/agent.train_frac": 0.6013998047813164, "timer/agent.train_avg": 0.11666530890856239, "timer/agent.train_min": 0.10189270973205566, "timer/agent.train_max": 0.20664215087890625, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26162266731262207, "timer/agent.report_frac": 0.0008717794007504589, "timer/agent.report_avg": 0.13081133365631104, "timer/agent.report_min": 0.09851789474487305, "timer/agent.report_max": 0.16310477256774902, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.602836608886719e-05, "timer/dataset_eval_frac": 1.8669779616463475e-07, "timer/dataset_eval_avg": 5.602836608886719e-05, "timer/dataset_eval_min": 5.602836608886719e-05, "timer/dataset_eval_max": 5.602836608886719e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08901476860046387, "timer/agent.save_frac": 0.0002966151305831796, "timer/agent.save_avg": 0.08901476860046387, "timer/agent.save_min": 0.08901476860046387, "timer/agent.save_max": 0.08901476860046387, "fps": 20.618440944145714}
{"step": 305884, "episode/length": 469.0, "episode/score": 540.0, "episode/reward_rate": 0.1148936170212766}
{"step": 308036, "episode/length": 537.0, "episode/score": 500.0, "episode/reward_rate": 0.09293680297397769}
{"step": 310148, "episode/length": 527.0, "episode/score": 520.0, "episode/reward_rate": 0.09848484848484848}
{"step": 311700, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.004233083417338, "train/action_min": 0.0, "train/action_std": 4.194704904863912, "train/actor_opt_grad_norm": 0.007808050343526467, "train/actor_opt_grad_steps": 76050.0, "train/actor_opt_loss": 0.0004141744994652277, "train/adv_mag": 0.6816760931284197, "train/adv_max": 0.6539909776180021, "train/adv_mean": 0.002114687730218359, "train/adv_min": -0.3487218047341993, "train/adv_std": 0.030996386322282975, "train/cont_avg": 0.9982358870967742, "train/cont_loss_mean": 0.000844034571551058, "train/cont_loss_std": 0.01944554334307162, "train/cont_neg_acc": 0.9269230778400714, "train/cont_neg_loss": 0.24698263803622048, "train/cont_pos_acc": 0.9998799527845075, "train/cont_pos_loss": 0.0003642725016027087, "train/cont_pred": 0.9982203598945372, "train/cont_rate": 0.9982358870967742, "train/dyn_loss_mean": 2.9549111166308, "train/dyn_loss_std": 5.9611951520366055, "train/extr_critic_critic_opt_grad_norm": 1.4725973867600963, "train/extr_critic_critic_opt_grad_steps": 76050.0, "train/extr_critic_critic_opt_loss": 1.4814883870463218, "train/extr_critic_mag": 323.90371487525204, "train/extr_critic_max": 323.90371487525204, "train/extr_critic_mean": 123.93965168614541, "train/extr_critic_min": 0.20585252700313444, "train/extr_critic_std": 82.3999899833433, "train/extr_return_normed_mag": 1.3831023646939185, "train/extr_return_normed_max": 1.3831023646939185, "train/extr_return_normed_mean": 0.4429277725758091, "train/extr_return_normed_min": -0.025009244995852633, "train/extr_return_normed_std": 0.31189364752461834, "train/extr_return_rate": 0.9531657907270616, "train/extr_return_raw_mag": 374.1804967080393, "train/extr_return_raw_max": 374.1804967080393, "train/extr_return_raw_mean": 124.50119107154107, "train/extr_return_raw_min": 0.1991484540244264, "train/extr_return_raw_std": 82.86845137073148, "train/extr_reward_mag": 109.51721353223247, "train/extr_reward_max": 109.51721353223247, "train/extr_reward_mean": 0.8117788695519971, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.4734388259149367, "train/image_loss_mean": 1.1724492499905248, "train/image_loss_std": 0.9139597054450742, "train/model_loss_mean": 3.0069803407115323, "train/model_loss_std": 4.187112815918461, "train/model_opt_grad_norm": 10.941332721710205, "train/model_opt_grad_steps": 76050.0, "train/model_opt_loss": 3.0069803407115323, "train/policy_entropy_mag": 2.658245389692245, "train/policy_entropy_max": 2.658245389692245, "train/policy_entropy_mean": 0.8629072808450268, "train/policy_entropy_min": 0.08019271209355323, "train/policy_entropy_std": 0.7068150197305987, "train/policy_logprob_mag": 7.49553190354378, "train/policy_logprob_max": -0.009489689593113238, "train/policy_logprob_mean": -0.8637250788750187, "train/policy_logprob_min": -7.49553190354378, "train/policy_logprob_std": 1.2731633809305007, "train/policy_randomness_mag": 0.9196898075842088, "train/policy_randomness_max": 0.9196898075842088, "train/policy_randomness_mean": 0.2985454386280429, "train/policy_randomness_min": 0.027744774796789693, "train/policy_randomness_std": 0.2445412177232004, "train/post_ent_mag": 62.51230611493511, "train/post_ent_max": 62.51230611493511, "train/post_ent_mean": 42.56740213209583, "train/post_ent_min": 13.940264000431183, "train/post_ent_std": 4.996601193951022, "train/prior_ent_mag": 83.44110264931956, "train/prior_ent_max": 83.44110264931956, "train/prior_ent_mean": 45.531708600444176, "train/prior_ent_min": 17.393290212077478, "train/prior_ent_std": 6.9508638628067505, "train/rep_loss_mean": 2.9549111166308, "train/rep_loss_std": 5.9611951520366055, "train/reward_avg": 0.9133694556451613, "train/reward_loss_mean": 0.06074039154956418, "train/reward_loss_std": 0.23700523299555626, "train/reward_max_data": 85.54838709677419, "train/reward_max_pred": 44.91318198788551, "train/reward_neg_acc": 0.9761955161248485, "train/reward_neg_loss": 0.007256685401643476, "train/reward_pos_acc": 0.9936358021151634, "train/reward_pos_loss": 0.6554054456372415, "train/reward_pred": 0.8154415724738951, "train/reward_rate": 0.08269909274193549, "train_stats/mean_log_entropy": 0.791665236155192, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.573327719801455e-07, "report/cont_loss_std": 3.1612362363375723e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.573327719801455e-07, "report/cont_pred": 0.9999997615814209, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.8842263221740723, "report/dyn_loss_std": 6.220184803009033, "report/image_loss_mean": 1.2587697505950928, "report/image_loss_std": 1.0953186750411987, "report/model_loss_mean": 3.039911985397339, "report/model_loss_std": 4.548251152038574, "report/post_ent_mag": 57.6620979309082, "report/post_ent_max": 57.6620979309082, "report/post_ent_mean": 41.57344436645508, "report/post_ent_min": 11.265626907348633, "report/post_ent_std": 4.7772698402404785, "report/prior_ent_mag": 83.62151336669922, "report/prior_ent_max": 83.62151336669922, "report/prior_ent_mean": 44.56916809082031, "report/prior_ent_min": 12.493654251098633, "report/prior_ent_std": 6.5340471267700195, "report/rep_loss_mean": 2.8842263221740723, "report/rep_loss_std": 6.220184803009033, "report/reward_avg": 0.703125, "report/reward_loss_mean": 0.0506061427295208, "report/reward_loss_std": 0.20806929469108582, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.997522354125977, "report/reward_neg_acc": 0.9832108616828918, "report/reward_neg_loss": 0.005231122020632029, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6596539616584778, "report/reward_pred": 0.6522462368011475, "report/reward_rate": 0.0693359375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009049362502992153, "eval/cont_loss_std": 0.28679192066192627, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.624484062194824, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.7201353330165148e-05, "eval/cont_pred": 0.9990698099136353, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 17.319202423095703, "eval/dyn_loss_std": 13.044118881225586, "eval/image_loss_mean": 4.349634170532227, "eval/image_loss_std": 2.5928409099578857, "eval/model_loss_mean": 15.326780319213867, "eval/model_loss_std": 10.150226593017578, "eval/post_ent_mag": 64.64833068847656, "eval/post_ent_max": 64.64833068847656, "eval/post_ent_mean": 43.07762145996094, "eval/post_ent_min": 27.197154998779297, "eval/post_ent_std": 4.4277801513671875, "eval/prior_ent_mag": 83.62151336669922, "eval/prior_ent_max": 83.62151336669922, "eval/prior_ent_mean": 48.485958099365234, "eval/prior_ent_min": 30.36188507080078, "eval/prior_ent_std": 6.210601806640625, "eval/rep_loss_mean": 17.319202423095703, "eval/rep_loss_std": 13.044118881225586, "eval/reward_avg": 0.37109375, "eval/reward_loss_mean": 0.5765763521194458, "eval/reward_loss_std": 3.1218459606170654, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999277114868164, "eval/reward_neg_acc": 0.9675456285476685, "eval/reward_neg_loss": 0.032577190548181534, "eval/reward_pos_acc": 0.05263157933950424, "eval/reward_pos_loss": 14.691923141479492, "eval/reward_pred": 0.07320301234722137, "eval/reward_rate": 0.037109375, "replay/size": 109356.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.9906183582867766e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3607031923239853e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8924474716186523e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0292582511902, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 393.44835448265076, "timer/replay._sample_frac": 1.3113666206288732, "timer/replay._sample_avg": 0.01588535022943519, "timer/replay._sample_min": 0.00042700767517089844, "timer/replay._sample_max": 0.05095076560974121, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.8011345863342285, "timer/env.step_frac": 0.02266823784445779, "timer/env.step_avg": 0.004393497794789553, "timer/env.step_min": 0.0022928714752197266, "timer/env.step_max": 0.0346376895904541, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.17608332633972, "timer/agent.policy_frac": 0.3705508055259764, "timer/agent.policy_avg": 0.07181917527541326, "timer/agent.policy_min": 0.0029969215393066406, "timer/agent.policy_max": 0.08997750282287598, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15131211280822754, "timer/dataset_train_frac": 0.000504324523848758, "timer/dataset_train_avg": 9.77468428993718e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.0002605915069580078, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.69631934165955, "timer/agent.train_frac": 0.6022623273306804, "timer/agent.train_avg": 0.11672888846360435, "timer/agent.train_min": 0.10245108604431152, "timer/agent.train_max": 0.20503950119018555, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2539360523223877, "timer/agent.report_frac": 0.0008463709632938118, "timer/agent.report_avg": 0.12696802616119385, "timer/agent.report_min": 0.09492659568786621, "timer/agent.report_max": 0.15900945663452148, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.175041198730469e-05, "timer/dataset_eval_frac": 2.058146340368114e-07, "timer/dataset_eval_avg": 6.175041198730469e-05, "timer/dataset_eval_min": 6.175041198730469e-05, "timer/dataset_eval_max": 6.175041198730469e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.636781620310735}
{"step": 312572, "episode/length": 605.0, "episode/score": 650.0, "episode/reward_rate": 0.10726072607260725}
{"step": 314736, "episode/length": 540.0, "episode/score": 1130.0, "episode/reward_rate": 0.11829944547134935}
{"step": 317288, "episode/length": 637.0, "episode/score": 710.0, "episode/reward_rate": 0.11128526645768025}
{"step": 317896, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.047188445060485, "train/action_min": 0.0, "train/action_std": 4.211084956507529, "train/actor_opt_grad_norm": 0.008179438285409443, "train/actor_opt_grad_steps": 77600.0, "train/actor_opt_loss": 0.0004464744659579141, "train/adv_mag": 0.732478099773007, "train/adv_max": 0.6980339965512675, "train/adv_mean": 0.0022886058156619845, "train/adv_min": -0.3644520747084771, "train/adv_std": 0.03442963371353765, "train/cont_avg": 0.9983618951612904, "train/cont_loss_mean": 0.000732302383459312, "train/cont_loss_std": 0.017362143034934125, "train/cont_neg_acc": 0.9389322923962027, "train/cont_neg_loss": 0.18997987655593818, "train/cont_pos_acc": 0.999842151903337, "train/cont_pos_loss": 0.0004024337775217279, "train/cont_pred": 0.9982670280241197, "train/cont_rate": 0.9983618951612904, "train/dyn_loss_mean": 2.914559119747531, "train/dyn_loss_std": 5.954991312949888, "train/extr_critic_critic_opt_grad_norm": 1.4219423013348733, "train/extr_critic_critic_opt_grad_steps": 77600.0, "train/extr_critic_critic_opt_loss": 1.4807281286485734, "train/extr_critic_mag": 326.6546438893964, "train/extr_critic_max": 326.6546438893964, "train/extr_critic_mean": 124.51184938492314, "train/extr_critic_min": 0.2314334338711154, "train/extr_critic_std": 82.95541389219223, "train/extr_return_normed_mag": 1.4446306759311307, "train/extr_return_normed_max": 1.4446306759311307, "train/extr_return_normed_mean": 0.4367649793624878, "train/extr_return_normed_min": -0.024613736297432035, "train/extr_return_normed_std": 0.3098483479792072, "train/extr_return_rate": 0.9588516973680066, "train/extr_return_raw_mag": 398.2400390625, "train/extr_return_raw_max": 398.2400390625, "train/extr_return_raw_mean": 125.13281343521611, "train/extr_return_raw_min": 0.1762389501737949, "train/extr_return_raw_std": 83.91541034329322, "train/extr_reward_mag": 105.51992450221893, "train/extr_reward_max": 105.51992450221893, "train/extr_reward_mean": 0.8270772186017805, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7372104221774687, "train/image_loss_mean": 1.1429519307228826, "train/image_loss_std": 0.8916576416261734, "train/model_loss_mean": 2.952645875561622, "train/model_loss_std": 4.163309894069549, "train/model_opt_grad_norm": 10.424978653077156, "train/model_opt_grad_steps": 77600.0, "train/model_opt_loss": 2.952645875561622, "train/policy_entropy_mag": 2.650597744603311, "train/policy_entropy_max": 2.650597744603311, "train/policy_entropy_mean": 0.8390353479693012, "train/policy_entropy_min": 0.0801925782234438, "train/policy_entropy_std": 0.690728440976912, "train/policy_logprob_mag": 7.4955338416561, "train/policy_logprob_max": -0.00948967054005592, "train/policy_logprob_mean": -0.8383318151197126, "train/policy_logprob_min": -7.4955338416561, "train/policy_logprob_std": 1.2591493406603413, "train/policy_randomness_mag": 0.917043903950722, "train/policy_randomness_max": 0.917043903950722, "train/policy_randomness_mean": 0.2902863158333686, "train/policy_randomness_min": 0.027744728591172926, "train/policy_randomness_std": 0.23897564555368117, "train/post_ent_mag": 62.65776086622669, "train/post_ent_max": 62.65776086622669, "train/post_ent_mean": 42.5631102531187, "train/post_ent_min": 13.715332468094365, "train/post_ent_std": 5.042716795398343, "train/prior_ent_mag": 83.60005148610762, "train/prior_ent_max": 83.60005148610762, "train/prior_ent_mean": 45.523315675797, "train/prior_ent_min": 17.04942684173584, "train/prior_ent_std": 6.999184550008466, "train/rep_loss_mean": 2.914559119747531, "train/rep_loss_std": 5.954991312949888, "train/reward_avg": 0.9016507056451613, "train/reward_loss_mean": 0.06022615635827665, "train/reward_loss_std": 0.23126041283530574, "train/reward_max_data": 84.96774193548387, "train/reward_max_pred": 54.39619421189831, "train/reward_neg_acc": 0.9761783165316428, "train/reward_neg_loss": 0.007391469474250991, "train/reward_pos_acc": 0.9950147121183334, "train/reward_pos_loss": 0.6521304995782914, "train/reward_pred": 0.8213189803784894, "train/reward_rate": 0.08219506048387097, "train_stats/mean_log_entropy": 0.8431116541226705, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0002037054655374959, "report/cont_loss_std": 0.003863888094201684, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01303884107619524, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00017858779756352305, "report/cont_pred": 0.9979009032249451, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.829181432723999, "report/dyn_loss_std": 6.516332626342773, "report/image_loss_mean": 1.2524099349975586, "report/image_loss_std": 0.9118533730506897, "report/model_loss_mean": 2.994904041290283, "report/model_loss_std": 4.565075874328613, "report/post_ent_mag": 62.88920593261719, "report/post_ent_max": 62.88920593261719, "report/post_ent_mean": 42.178932189941406, "report/post_ent_min": 11.549173355102539, "report/post_ent_std": 5.184979438781738, "report/prior_ent_mag": 83.84208679199219, "report/prior_ent_max": 83.84208679199219, "report/prior_ent_mean": 44.973995208740234, "report/prior_ent_min": 13.061302185058594, "report/prior_ent_std": 7.244166851043701, "report/rep_loss_mean": 2.829181432723999, "report/rep_loss_std": 6.516332626342773, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 0.04478173330426216, "report/reward_loss_std": 0.20463664829730988, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99870491027832, "report/reward_neg_acc": 0.9864442348480225, "report/reward_neg_loss": 0.004456504713743925, "report/reward_pos_acc": 0.9846153855323792, "report/reward_pos_loss": 0.6397340297698975, "report/reward_pred": 0.618675708770752, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0016325911274179816, "eval/cont_loss_std": 0.03726953640580177, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 0.3722871243953705, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000543498492334038, "eval/cont_pred": 0.9973059296607971, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 15.869586944580078, "eval/dyn_loss_std": 12.070804595947266, "eval/image_loss_mean": 4.464488983154297, "eval/image_loss_std": 3.3030507564544678, "eval/model_loss_mean": 14.410703659057617, "eval/model_loss_std": 10.28525161743164, "eval/post_ent_mag": 65.18157958984375, "eval/post_ent_max": 65.18157958984375, "eval/post_ent_mean": 43.36949920654297, "eval/post_ent_min": 27.860076904296875, "eval/post_ent_std": 4.67922830581665, "eval/prior_ent_mag": 83.84208679199219, "eval/prior_ent_max": 83.84208679199219, "eval/prior_ent_mean": 48.69403839111328, "eval/prior_ent_min": 30.070451736450195, "eval/prior_ent_std": 6.620544910430908, "eval/rep_loss_mean": 15.869586944580078, "eval/rep_loss_std": 12.070804595947266, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.4228304624557495, "eval/reward_loss_std": 2.4426662921905518, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.971364974975586, "eval/reward_neg_acc": 0.9586276412010193, "eval/reward_neg_loss": 0.047122057527303696, "eval/reward_pos_acc": 0.1515151411294937, "eval/reward_pos_loss": 11.705467224121094, "eval/reward_pred": 0.12085850536823273, "eval/reward_rate": 0.0322265625, "replay/size": 110905.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.980316309870405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345048649531168e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.248453140258789e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1120982170105, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 391.9105484485626, "timer/replay._sample_frac": 1.3058805385618704, "timer/replay._sample_avg": 0.01581304666109436, "timer/replay._sample_min": 0.0004773139953613281, "timer/replay._sample_max": 0.036977291107177734, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.674391269683838, "timer/env.step_frac": 0.022239660811199945, "timer/env.step_avg": 0.0043088387796538655, "timer/env.step_min": 0.0025098323822021484, "timer/env.step_max": 0.0270388126373291, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.41185593605042, "timer/agent.policy_frac": 0.37123413750380935, "timer/agent.policy_avg": 0.07192501997162712, "timer/agent.policy_min": 0.0026750564575195312, "timer/agent.policy_max": 0.0914909839630127, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.1542649269104004, "timer/dataset_train_frac": 0.0005140243523233499, "timer/dataset_train_avg": 9.959001091697895e-05, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.00018668174743652344, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.65699887275696, "timer/agent.train_frac": 0.6019650655406908, "timer/agent.train_avg": 0.11662814646401352, "timer/agent.train_min": 0.1032252311706543, "timer/agent.train_max": 0.20650410652160645, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.265317440032959, "timer/agent.report_frac": 0.0008840611278559935, "timer/agent.report_avg": 0.1326587200164795, "timer/agent.report_min": 0.10062742233276367, "timer/agent.report_max": 0.1646900177001953, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.749961853027344e-05, "timer/dataset_eval_frac": 2.915564519061895e-07, "timer/dataset_eval_avg": 8.749961853027344e-05, "timer/dataset_eval_min": 8.749961853027344e-05, "timer/dataset_eval_max": 8.749961853027344e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.64446389575906}
{"step": 319720, "episode/length": 607.0, "episode/score": 510.0, "episode/reward_rate": 0.08223684210526316}
{"step": 322532, "episode/length": 702.0, "episode/score": 760.0, "episode/reward_rate": 0.10810810810810811}
{"step": 324080, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.143682270665323, "train/action_min": 0.0, "train/action_std": 4.20076989973745, "train/actor_opt_grad_norm": 0.007798833984340872, "train/actor_opt_grad_steps": 79150.0, "train/actor_opt_loss": 0.0003990625949530025, "train/adv_mag": 0.7173588114880747, "train/adv_max": 0.6851425556886581, "train/adv_mean": 0.002280477188217065, "train/adv_min": -0.36523372362698275, "train/adv_std": 0.03253411256497906, "train/cont_avg": 0.9980279737903226, "train/cont_loss_mean": 0.0006972041994269911, "train/cont_loss_std": 0.016462243089938145, "train/cont_neg_acc": 0.9377697852018069, "train/cont_neg_loss": 0.19548597909374457, "train/cont_pos_acc": 0.9999115344016782, "train/cont_pos_loss": 0.0002707253195475067, "train/cont_pred": 0.9980426503765968, "train/cont_rate": 0.9980279737903226, "train/dyn_loss_mean": 2.9640330899146297, "train/dyn_loss_std": 5.982908270435948, "train/extr_critic_critic_opt_grad_norm": 1.4919786826256782, "train/extr_critic_critic_opt_grad_steps": 79150.0, "train/extr_critic_critic_opt_loss": 1.4964978141169394, "train/extr_critic_mag": 330.41832029281125, "train/extr_critic_max": 330.41832029281125, "train/extr_critic_mean": 130.0270515688004, "train/extr_critic_min": 0.20026461924276046, "train/extr_critic_std": 86.63958422753119, "train/extr_return_normed_mag": 1.3966741238870928, "train/extr_return_normed_max": 1.3966741238870928, "train/extr_return_normed_mean": 0.4499923621454546, "train/extr_return_normed_min": -0.024649235900611646, "train/extr_return_normed_std": 0.31790564185188663, "train/extr_return_rate": 0.9539932447095071, "train/extr_return_raw_mag": 390.7586906186996, "train/extr_return_raw_max": 390.7586906186996, "train/extr_return_raw_mean": 130.65242403091924, "train/extr_return_raw_min": 0.19458364155744354, "train/extr_return_raw_std": 87.39842763100901, "train/extr_reward_mag": 123.18130171991163, "train/extr_reward_max": 123.18130171991163, "train/extr_reward_mean": 0.8527485132217407, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7775697969621227, "train/image_loss_mean": 1.1361503428028477, "train/image_loss_std": 0.9054685773388031, "train/model_loss_mean": 2.9783339131262996, "train/model_loss_std": 4.193486861259706, "train/model_opt_grad_norm": 10.32823466331728, "train/model_opt_grad_steps": 79150.0, "train/model_opt_loss": 2.9783339131262996, "train/policy_entropy_mag": 2.655896614443871, "train/policy_entropy_max": 2.655896614443871, "train/policy_entropy_mean": 0.8210035808624759, "train/policy_entropy_min": 0.080192994494592, "train/policy_entropy_std": 0.6909704996693519, "train/policy_logprob_mag": 7.495529906980453, "train/policy_logprob_max": -0.009489731532671759, "train/policy_logprob_mean": -0.8198390122382871, "train/policy_logprob_min": -7.495529906980453, "train/policy_logprob_std": 1.2514073679524083, "train/policy_randomness_mag": 0.91887718554466, "train/policy_randomness_max": 0.91887718554466, "train/policy_randomness_mean": 0.2840477510806053, "train/policy_randomness_min": 0.027744872627719755, "train/policy_randomness_std": 0.23905939200232107, "train/post_ent_mag": 63.05997597479051, "train/post_ent_max": 63.05997597479051, "train/post_ent_mean": 42.47940924859816, "train/post_ent_min": 14.005488469523769, "train/post_ent_std": 5.102075259916244, "train/prior_ent_mag": 83.68804050568612, "train/prior_ent_max": 83.68804050568612, "train/prior_ent_mean": 45.45643775693832, "train/prior_ent_min": 17.323246285223192, "train/prior_ent_std": 7.092992582628804, "train/rep_loss_mean": 2.9640330899146297, "train/rep_loss_std": 5.982908270435948, "train/reward_avg": 0.9633946572580645, "train/reward_loss_mean": 0.06306650984671808, "train/reward_loss_std": 0.241447974212708, "train/reward_max_data": 98.0, "train/reward_max_pred": 49.16771789673836, "train/reward_neg_acc": 0.9754933753321248, "train/reward_neg_loss": 0.007371304448198287, "train/reward_pos_acc": 0.9934354605213288, "train/reward_pos_loss": 0.6584993581618032, "train/reward_pred": 0.8542847212283842, "train/reward_rate": 0.08610131048387097, "train_stats/mean_log_entropy": 0.8443504571914673, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.8388024614068854e-07, "report/cont_loss_std": 4.920113042317098e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.8388024614068854e-07, "report/cont_pred": 0.9999998211860657, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.952719211578369, "report/dyn_loss_std": 5.625402450561523, "report/image_loss_mean": 1.2626487016677856, "report/image_loss_std": 0.8760634660720825, "report/model_loss_mean": 3.1063413619995117, "report/model_loss_std": 3.9298079013824463, "report/post_ent_mag": 60.118465423583984, "report/post_ent_max": 60.118465423583984, "report/post_ent_mean": 43.670719146728516, "report/post_ent_min": 10.23796272277832, "report/post_ent_std": 4.3275957107543945, "report/prior_ent_mag": 83.8404769897461, "report/prior_ent_max": 83.8404769897461, "report/prior_ent_mean": 46.43438720703125, "report/prior_ent_min": 12.001302719116211, "report/prior_ent_std": 6.341628074645996, "report/rep_loss_mean": 2.952719211578369, "report/rep_loss_std": 5.625402450561523, "report/reward_avg": 0.947265625, "report/reward_loss_mean": 0.07206081598997116, "report/reward_loss_std": 0.3084838092327118, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.98967933654785, "report/reward_neg_acc": 0.9763185977935791, "report/reward_neg_loss": 0.011009903624653816, "report/reward_pos_acc": 0.9894737005233765, "report/reward_pos_loss": 0.6690744757652283, "report/reward_pred": 0.9201573729515076, "report/reward_rate": 0.0927734375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.1044652385171503e-06, "eval/cont_loss_std": 5.300841439748183e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1044652385171503e-06, "eval/cont_pred": 0.9999978542327881, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 18.64303207397461, "eval/dyn_loss_std": 14.689562797546387, "eval/image_loss_mean": 4.780601501464844, "eval/image_loss_std": 3.046835422515869, "eval/model_loss_mean": 16.38520050048828, "eval/model_loss_std": 11.35667610168457, "eval/post_ent_mag": 57.777610778808594, "eval/post_ent_max": 57.777610778808594, "eval/post_ent_mean": 43.07476806640625, "eval/post_ent_min": 28.13692283630371, "eval/post_ent_std": 4.648582458496094, "eval/prior_ent_mag": 83.8404769897461, "eval/prior_ent_max": 83.8404769897461, "eval/prior_ent_mean": 48.02794647216797, "eval/prior_ent_min": 32.171875, "eval/prior_ent_std": 6.518443584442139, "eval/rep_loss_mean": 18.64303207397461, "eval/rep_loss_std": 14.689562797546387, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.4187782108783722, "eval/reward_loss_std": 2.5204102993011475, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.990091323852539, "eval/reward_neg_acc": 0.9379379153251648, "eval/reward_neg_loss": 0.060211051255464554, "eval/reward_pos_acc": 0.03999999910593033, "eval/reward_pos_loss": 14.74712085723877, "eval/reward_pred": 0.13485415279865265, "eval/reward_rate": 0.0244140625, "replay/size": 112451.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.886192923838232e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3408924598743197e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 7.62939453125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1123089790344, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.3631932735443, "timer/replay._sample_frac": 1.3007237010755688, "timer/replay._sample_avg": 0.015781176959635525, "timer/replay._sample_min": 0.0006623268127441406, "timer/replay._sample_max": 0.07315897941589355, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.706940650939941, "timer/env.step_frac": 0.022348102527872265, "timer/env.step_avg": 0.004338253978615745, "timer/env.step_min": 0.0025186538696289062, "timer/env.step_max": 0.05189394950866699, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.42905497550964, "timer/agent.policy_frac": 0.37129118547181605, "timer/agent.policy_avg": 0.07207571473189499, "timer/agent.policy_min": 0.002727985382080078, "timer/agent.policy_max": 0.20582365989685059, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15654850006103516, "timer/dataset_train_frac": 0.0005216330532846338, "timer/dataset_train_avg": 0.00010126034932796582, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.0002300739288330078, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.7116687297821, "timer/agent.train_frac": 0.6021468074553599, "timer/agent.train_avg": 0.11688982453414108, "timer/agent.train_min": 0.1040503978729248, "timer/agent.train_max": 0.21873760223388672, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.1909937858581543, "timer/agent.report_frac": 0.000636407705195114, "timer/agent.report_avg": 0.09549689292907715, "timer/agent.report_min": 0.09425044059753418, "timer/agent.report_max": 0.09674334526062012, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.316734313964844e-05, "timer/dataset_eval_frac": 1.7715815562687454e-07, "timer/dataset_eval_avg": 5.316734313964844e-05, "timer/dataset_eval_min": 5.316734313964844e-05, "timer/dataset_eval_max": 5.316734313964844e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16817808151245117, "timer/agent.save_frac": 0.0005603838179266414, "timer/agent.save_avg": 0.16817808151245117, "timer/agent.save_min": 0.16817808151245117, "timer/agent.save_max": 0.16817808151245117, "fps": 20.60432607028603}
{"step": 324644, "episode/length": 527.0, "episode/score": 670.0, "episode/reward_rate": 0.125}
{"step": 327268, "episode/length": 655.0, "episode/score": 730.0, "episode/reward_rate": 0.11128048780487805}
{"step": 329680, "episode/length": 602.0, "episode/score": 660.0, "episode/reward_rate": 0.10945273631840796}
{"step": 330268, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.107155936104911, "train/action_min": 0.0, "train/action_std": 4.24909550028962, "train/actor_opt_grad_norm": 0.008162637585895015, "train/actor_opt_grad_steps": 80695.0, "train/actor_opt_loss": 0.0003370159734565171, "train/adv_mag": 0.7596100754552073, "train/adv_max": 0.726834655001566, "train/adv_mean": 0.0021691005480498496, "train/adv_min": -0.3777792009633857, "train/adv_std": 0.034018748627322445, "train/cont_avg": 0.998344916801948, "train/cont_loss_mean": 0.0006414648743509228, "train/cont_loss_std": 0.01567026212812698, "train/cont_neg_acc": 0.8982188308056984, "train/cont_neg_loss": 0.22385032096312307, "train/cont_pos_acc": 0.9998919131693902, "train/cont_pos_loss": 0.0002864229531929507, "train/cont_pred": 0.9983284798535433, "train/cont_rate": 0.998344916801948, "train/dyn_loss_mean": 2.955613984690084, "train/dyn_loss_std": 5.957811714766861, "train/extr_critic_critic_opt_grad_norm": 1.5053512515959802, "train/extr_critic_critic_opt_grad_steps": 80695.0, "train/extr_critic_critic_opt_loss": 1.5021825587594664, "train/extr_critic_mag": 333.9398081395533, "train/extr_critic_max": 333.9398081395533, "train/extr_critic_mean": 129.5223442672135, "train/extr_critic_min": 0.040447036167243856, "train/extr_critic_std": 87.2202141997102, "train/extr_return_normed_mag": 1.416204815561121, "train/extr_return_normed_max": 1.416204815561121, "train/extr_return_normed_mean": 0.4438660019016885, "train/extr_return_normed_min": -0.02200978756700824, "train/extr_return_normed_std": 0.3148897301841092, "train/extr_return_rate": 0.9543527279581342, "train/extr_return_raw_mag": 401.72010922122314, "train/extr_return_raw_max": 401.72010922122314, "train/extr_return_raw_mean": 130.12789193685953, "train/extr_return_raw_min": 0.03802068767348734, "train/extr_return_raw_std": 87.95118661360307, "train/extr_reward_mag": 130.36475596489845, "train/extr_reward_max": 130.36475596489845, "train/extr_reward_mean": 0.8572175090576147, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.8278691536420353, "train/image_loss_mean": 1.127103909656599, "train/image_loss_std": 0.8858341245682209, "train/model_loss_mean": 2.963757247119755, "train/model_loss_std": 4.157913293157305, "train/model_opt_grad_norm": 10.398872551979956, "train/model_opt_grad_steps": 80695.0, "train/model_opt_loss": 2.963757247119755, "train/policy_entropy_mag": 2.644717715003274, "train/policy_entropy_max": 2.644717715003274, "train/policy_entropy_mean": 0.8138138140950885, "train/policy_entropy_min": 0.0801924280822277, "train/policy_entropy_std": 0.682730469610784, "train/policy_logprob_mag": 7.495534036066625, "train/policy_logprob_max": -0.009489652186680537, "train/policy_logprob_mean": -0.8129173052775396, "train/policy_logprob_min": -7.495534036066625, "train/policy_logprob_std": 1.2468139281520596, "train/policy_randomness_mag": 0.9150095543304047, "train/policy_randomness_max": 0.9150095543304047, "train/policy_randomness_mean": 0.28156026123793093, "train/policy_randomness_min": 0.02774467659122371, "train/policy_randomness_std": 0.23620853882718396, "train/post_ent_mag": 62.779288973127095, "train/post_ent_max": 62.779288973127095, "train/post_ent_mean": 42.4556232303768, "train/post_ent_min": 13.044148302697517, "train/post_ent_std": 5.109440484604278, "train/prior_ent_mag": 83.81809358472948, "train/prior_ent_max": 83.81809358472948, "train/prior_ent_mean": 45.42748713802982, "train/prior_ent_min": 16.78591355410489, "train/prior_ent_std": 7.077208091686298, "train/rep_loss_mean": 2.955613984690084, "train/rep_loss_std": 5.957811714766861, "train/reward_avg": 0.9647676542207793, "train/reward_loss_mean": 0.06264348478092775, "train/reward_loss_std": 0.2413902527519635, "train/reward_max_data": 104.41558441558442, "train/reward_max_pred": 55.156184673309326, "train/reward_neg_acc": 0.9763253106699361, "train/reward_neg_loss": 0.006810260681108898, "train/reward_pos_acc": 0.9937141394460356, "train/reward_pos_loss": 0.6580890351301664, "train/reward_pred": 0.8614615045197598, "train/reward_rate": 0.08624188311688312, "train_stats/mean_log_entropy": 0.787261446317037, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00043086273944936693, "report/cont_loss_std": 0.00850801169872284, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.05744338408112526, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0003192922449670732, "report/cont_pred": 0.9978622198104858, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.5299291610717773, "report/dyn_loss_std": 5.665390491485596, "report/image_loss_mean": 0.9489989280700684, "report/image_loss_std": 0.8370257019996643, "report/model_loss_mean": 2.5222082138061523, "report/model_loss_std": 3.9466042518615723, "report/post_ent_mag": 65.8132095336914, "report/post_ent_max": 65.8132095336914, "report/post_ent_mean": 41.88965606689453, "report/post_ent_min": 10.683388710021973, "report/post_ent_std": 4.90260648727417, "report/prior_ent_mag": 83.94464874267578, "report/prior_ent_max": 83.94464874267578, "report/prior_ent_mean": 44.545570373535156, "report/prior_ent_min": 13.293502807617188, "report/prior_ent_std": 7.019897937774658, "report/rep_loss_mean": 2.5299291610717773, "report/rep_loss_std": 5.665390491485596, "report/reward_avg": 0.9765625, "report/reward_loss_mean": 0.054821114987134933, "report/reward_loss_std": 0.16324520111083984, "report/reward_max_data": 20.0, "report/reward_max_pred": 10.031172752380371, "report/reward_neg_acc": 0.9881081581115723, "report/reward_neg_loss": 0.0024339037481695414, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5442976355552673, "report/reward_pred": 0.9624807834625244, "report/reward_rate": 0.0966796875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.9116471839406586e-08, "eval/cont_loss_std": 5.56435168164171e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.9116471839406586e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 18.514265060424805, "eval/dyn_loss_std": 13.14626693725586, "eval/image_loss_mean": 4.939522743225098, "eval/image_loss_std": 2.980555295944214, "eval/model_loss_mean": 16.47857666015625, "eval/model_loss_std": 10.447446823120117, "eval/post_ent_mag": 57.88321304321289, "eval/post_ent_max": 57.88321304321289, "eval/post_ent_mean": 43.80797576904297, "eval/post_ent_min": 30.20269775390625, "eval/post_ent_std": 4.039519309997559, "eval/prior_ent_mag": 83.94464874267578, "eval/prior_ent_max": 83.94464874267578, "eval/prior_ent_mean": 49.032257080078125, "eval/prior_ent_min": 33.1041259765625, "eval/prior_ent_std": 5.594477653503418, "eval/rep_loss_mean": 18.514265060424805, "eval/rep_loss_std": 13.14626693725586, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.4304955005645752, "eval/reward_loss_std": 2.5406720638275146, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.996916770935059, "eval/reward_neg_acc": 0.9467336535453796, "eval/reward_neg_loss": 0.054032035171985626, "eval/reward_pos_acc": 0.10344827175140381, "eval/reward_pos_loss": 13.347085952758789, "eval/reward_pred": 0.1250542402267456, "eval/reward_rate": 0.0283203125, "replay/size": 113998.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.91940597603224e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3543585461035187e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.862645149230957e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.21116828918457, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.8865444660187, "timer/replay._sample_frac": 1.3087006279778461, "timer/replay._sample_avg": 0.01587292115651336, "timer/replay._sample_min": 0.00044155120849609375, "timer/replay._sample_max": 0.04735088348388672, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.727479934692383, "timer/env.step_frac": 0.02240915943610732, "timer/env.step_avg": 0.004348726525334442, "timer/env.step_min": 0.0019605159759521484, "timer/env.step_max": 0.025630712509155273, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.19070482254028, "timer/agent.policy_frac": 0.3703749779069963, "timer/agent.policy_avg": 0.07187505159828073, "timer/agent.policy_min": 0.002916574478149414, "timer/agent.policy_max": 0.08809161186218262, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.16308212280273438, "timer/dataset_train_frac": 0.0005432247032383624, "timer/dataset_train_avg": 0.00010541830821120516, "timer/dataset_train_min": 6.365776062011719e-05, "timer/dataset_train_max": 0.0002295970916748047, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.88378190994263, "timer/agent.train_frac": 0.6025218280210769, "timer/agent.train_avg": 0.11692552159660156, "timer/agent.train_min": 0.10301065444946289, "timer/agent.train_max": 0.20137858390808105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2673966884613037, "timer/agent.report_frac": 0.0008906953395009221, "timer/agent.report_avg": 0.13369834423065186, "timer/agent.report_min": 0.10263371467590332, "timer/agent.report_max": 0.1647629737854004, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.7697296142578125e-05, "timer/dataset_eval_frac": 1.9218903970621114e-07, "timer/dataset_eval_avg": 5.7697296142578125e-05, "timer/dataset_eval_min": 5.7697296142578125e-05, "timer/dataset_eval_max": 5.7697296142578125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.611072053084836}
{"step": 331744, "episode/length": 515.0, "episode/score": 1120.0, "episode/reward_rate": 0.12209302325581395}
{"step": 333852, "episode/length": 526.0, "episode/score": 510.0, "episode/reward_rate": 0.0967741935483871}
{"step": 336448, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.215803773941532, "train/action_min": 0.0, "train/action_std": 4.238252899723668, "train/actor_opt_grad_norm": 0.009300095404708577, "train/actor_opt_grad_steps": 82240.0, "train/actor_opt_loss": 0.0008155506939235032, "train/adv_mag": 0.7878338026423608, "train/adv_max": 0.7435832369712091, "train/adv_mean": 0.0028935412538797414, "train/adv_min": -0.4069966173941089, "train/adv_std": 0.037682724978414274, "train/cont_avg": 0.9982358870967742, "train/cont_loss_mean": 0.0008169890724738777, "train/cont_loss_std": 0.01912202320063333, "train/cont_neg_acc": 0.9022556399940548, "train/cont_neg_loss": 0.2827932388226097, "train/cont_pos_acc": 0.9998799408635786, "train/cont_pos_loss": 0.0003592993642257625, "train/cont_pred": 0.9981680785456012, "train/cont_rate": 0.9982358870967742, "train/dyn_loss_mean": 2.9236001183909757, "train/dyn_loss_std": 5.943063065313524, "train/extr_critic_critic_opt_grad_norm": 1.5640844760402557, "train/extr_critic_critic_opt_grad_steps": 82240.0, "train/extr_critic_critic_opt_loss": 1.5244227986181935, "train/extr_critic_mag": 334.4003570556641, "train/extr_critic_max": 334.4003570556641, "train/extr_critic_mean": 136.82503927907635, "train/extr_critic_min": 0.16286813059160787, "train/extr_critic_std": 88.95117689563382, "train/extr_return_normed_mag": 1.4400013227616586, "train/extr_return_normed_max": 1.4400013227616586, "train/extr_return_normed_mean": 0.46196762111879164, "train/extr_return_normed_min": -0.02370057495370988, "train/extr_return_normed_std": 0.31800497395377003, "train/extr_return_rate": 0.9610270134864315, "train/extr_return_raw_mag": 414.23589812247985, "train/extr_return_raw_max": 414.23589812247985, "train/extr_return_raw_mean": 137.6434596892326, "train/extr_return_raw_min": 0.17485459491370187, "train/extr_return_raw_std": 90.00757857291929, "train/extr_reward_mag": 120.84481688468686, "train/extr_reward_max": 120.84481688468686, "train/extr_reward_mean": 0.8921641009469186, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.018180706424098, "train/image_loss_mean": 1.1146627479983915, "train/image_loss_std": 0.8859481638477694, "train/model_loss_mean": 2.934401281418339, "train/model_loss_std": 4.151664378566126, "train/model_opt_grad_norm": 10.509538545916158, "train/model_opt_grad_steps": 82240.0, "train/model_opt_loss": 2.934401281418339, "train/policy_entropy_mag": 2.638395366361064, "train/policy_entropy_max": 2.638395366361064, "train/policy_entropy_mean": 0.8031605143700876, "train/policy_entropy_min": 0.08019175183388495, "train/policy_entropy_std": 0.6808113590363534, "train/policy_logprob_mag": 7.495538745387908, "train/policy_logprob_max": -0.009489539866485904, "train/policy_logprob_mean": -0.8031491618002614, "train/policy_logprob_min": -7.495538745387908, "train/policy_logprob_std": 1.242849922949268, "train/policy_randomness_mag": 0.9128221704113868, "train/policy_randomness_max": 0.9128221704113868, "train/policy_randomness_mean": 0.2778744726411758, "train/policy_randomness_min": 0.027744442621065724, "train/policy_randomness_std": 0.23554457137661597, "train/post_ent_mag": 63.07389413156817, "train/post_ent_max": 63.07389413156817, "train/post_ent_mean": 42.387071154194494, "train/post_ent_min": 12.497215117177655, "train/post_ent_std": 5.103744017693304, "train/prior_ent_mag": 83.8940694501323, "train/prior_ent_max": 83.8940694501323, "train/prior_ent_mean": 45.33713610249181, "train/prior_ent_min": 16.205062552421325, "train/prior_ent_std": 7.0833724729476435, "train/rep_loss_mean": 2.9236001183909757, "train/rep_loss_std": 5.943063065313524, "train/reward_avg": 0.9644657258064516, "train/reward_loss_mean": 0.06476147411571395, "train/reward_loss_std": 0.24289443291002705, "train/reward_max_data": 75.48387096774194, "train/reward_max_pred": 47.96457844395791, "train/reward_neg_acc": 0.9755961325860792, "train/reward_neg_loss": 0.00787964904410464, "train/reward_pos_acc": 0.9941916254258925, "train/reward_pos_loss": 0.6516484591268724, "train/reward_pred": 0.8870927741450648, "train/reward_rate": 0.0887789818548387, "train_stats/mean_log_entropy": 0.7322593927383423, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.065556443791138e-05, "report/cont_loss_std": 0.000172531814314425, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.0904589948477224e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0615937753755134e-05, "report/cont_pred": 0.9980363249778748, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.1598286628723145, "report/dyn_loss_std": 5.801734447479248, "report/image_loss_mean": 1.267992377281189, "report/image_loss_std": 0.8278173804283142, "report/model_loss_mean": 3.2402849197387695, "report/model_loss_std": 3.9076666831970215, "report/post_ent_mag": 63.95998001098633, "report/post_ent_max": 63.95998001098633, "report/post_ent_mean": 42.90047073364258, "report/post_ent_min": 23.7718448638916, "report/post_ent_std": 4.767569065093994, "report/prior_ent_mag": 84.15277099609375, "report/prior_ent_max": 84.15277099609375, "report/prior_ent_mean": 45.96349334716797, "report/prior_ent_min": 23.424373626708984, "report/prior_ent_std": 6.79561185836792, "report/rep_loss_mean": 3.1598286628723145, "report/rep_loss_std": 5.801734447479248, "report/reward_avg": 1.494140625, "report/reward_loss_mean": 0.07638468593358994, "report/reward_loss_std": 0.26932409405708313, "report/reward_max_data": 500.0, "report/reward_max_pred": 20.000347137451172, "report/reward_neg_acc": 0.9740259647369385, "report/reward_neg_loss": 0.0072572906501591206, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7151217460632324, "report/reward_pred": 0.9106247425079346, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 7.729470962658525e-05, "eval/cont_loss_std": 0.001620423048734665, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.03786583989858627, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.035576421301812e-05, "eval/cont_pred": 0.9990200996398926, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.524986267089844, "eval/dyn_loss_std": 14.313292503356934, "eval/image_loss_mean": 5.105833053588867, "eval/image_loss_std": 3.2950143814086914, "eval/model_loss_mean": 17.291261672973633, "eval/model_loss_std": 11.423785209655762, "eval/post_ent_mag": 65.78375244140625, "eval/post_ent_max": 65.78375244140625, "eval/post_ent_mean": 43.59929656982422, "eval/post_ent_min": 26.650455474853516, "eval/post_ent_std": 4.452216625213623, "eval/prior_ent_mag": 84.15277099609375, "eval/prior_ent_max": 84.15277099609375, "eval/prior_ent_mean": 49.25666809082031, "eval/prior_ent_min": 29.032379150390625, "eval/prior_ent_std": 6.287117958068848, "eval/rep_loss_mean": 19.524986267089844, "eval/rep_loss_std": 14.313292503356934, "eval/reward_avg": 0.2734375, "eval/reward_loss_mean": 0.4703596234321594, "eval/reward_loss_std": 2.947633743286133, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.984448432922363, "eval/reward_neg_acc": 0.9588354229927063, "eval/reward_neg_loss": 0.05088692158460617, "eval/reward_pos_acc": 0.1785714328289032, "eval/reward_pos_loss": 15.39160442352295, "eval/reward_pred": 0.14237947762012482, "eval/reward_rate": 0.02734375, "replay/size": 115543.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 5.0640414833636735e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3342856589258681e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.2633543014526367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11081194877625, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 385.3261573314667, "timer/replay._sample_frac": 1.283946269144196, "timer/replay._sample_avg": 0.015587627723764833, "timer/replay._sample_min": 0.0004718303680419922, "timer/replay._sample_max": 0.04748082160949707, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.839336395263672, "timer/env.step_frac": 0.022789370202467178, "timer/env.step_avg": 0.004426754948390726, "timer/env.step_min": 0.0022432804107666016, "timer/env.step_max": 0.026591062545776367, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 110.60820627212524, "timer/agent.policy_frac": 0.3685578855153148, "timer/agent.policy_avg": 0.07159107202079304, "timer/agent.policy_min": 0.002877473831176758, "timer/agent.policy_max": 0.08552050590515137, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.16218304634094238, "timer/dataset_train_frac": 0.0005404105413190653, "timer/dataset_train_avg": 0.00010497284552811804, "timer/dataset_train_min": 6.222724914550781e-05, "timer/dataset_train_max": 0.00033092498779296875, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 181.28797674179077, "timer/agent.train_frac": 0.6040701285121761, "timer/agent.train_avg": 0.11733849627300373, "timer/agent.train_min": 0.10381507873535156, "timer/agent.train_max": 0.2029118537902832, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26187562942504883, "timer/agent.report_frac": 0.0008725964510393797, "timer/agent.report_avg": 0.13093781471252441, "timer/agent.report_min": 0.09889817237854004, "timer/agent.report_max": 0.1629774570465088, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.76837158203125e-05, "timer/dataset_eval_frac": 1.5888703079598242e-07, "timer/dataset_eval_avg": 4.76837158203125e-05, "timer/dataset_eval_min": 4.76837158203125e-05, "timer/dataset_eval_max": 4.76837158203125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.59116203732889}
{"step": 337096, "episode/length": 810.0, "episode/score": 1230.0, "episode/reward_rate": 0.09001233045622688}
{"step": 340312, "episode/length": 803.0, "episode/score": 660.0, "episode/reward_rate": 0.08084577114427861}
{"step": 342624, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.998955268364448, "train/action_min": 0.0, "train/action_std": 4.379048760835227, "train/actor_opt_grad_norm": 0.007374124315736646, "train/actor_opt_grad_steps": 83785.0, "train/actor_opt_loss": 0.00038000897675138055, "train/adv_mag": 0.7223811779509891, "train/adv_max": 0.6950623586580351, "train/adv_mean": 0.0020351977485703384, "train/adv_min": -0.3581789515719011, "train/adv_std": 0.03210676687031791, "train/cont_avg": 0.9981927252435064, "train/cont_loss_mean": 0.0006860558696764571, "train/cont_loss_std": 0.016826666865643373, "train/cont_neg_acc": 0.9078431381460499, "train/cont_neg_loss": 0.20802085534239723, "train/cont_pos_acc": 0.9998792255079592, "train/cont_pos_loss": 0.00034287658988748076, "train/cont_pred": 0.9981543561080833, "train/cont_rate": 0.9981927252435064, "train/dyn_loss_mean": 2.938469447098769, "train/dyn_loss_std": 5.97734810160352, "train/extr_critic_critic_opt_grad_norm": 1.517617567019029, "train/extr_critic_critic_opt_grad_steps": 83785.0, "train/extr_critic_critic_opt_loss": 1.5235719611118366, "train/extr_critic_mag": 338.898476340554, "train/extr_critic_max": 338.898476340554, "train/extr_critic_mean": 135.1411651512245, "train/extr_critic_min": 0.03667326639224956, "train/extr_critic_std": 92.82851593215744, "train/extr_return_normed_mag": 1.3908217553194466, "train/extr_return_normed_max": 1.3908217553194466, "train/extr_return_normed_mean": 0.44625531349863323, "train/extr_return_normed_min": -0.024174632044968666, "train/extr_return_normed_std": 0.32387988888598107, "train/extr_return_rate": 0.9572388719428669, "train/extr_return_raw_mag": 408.1193531581334, "train/extr_return_raw_max": 408.1193531581334, "train/extr_return_raw_mean": 135.72804537686434, "train/extr_return_raw_min": 0.01473378376126616, "train/extr_return_raw_std": 93.43525475341004, "train/extr_reward_mag": 132.68651081679704, "train/extr_reward_max": 132.68651081679704, "train/extr_reward_mean": 0.8646782659865045, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.799596895645191, "train/image_loss_mean": 1.1091354516419498, "train/image_loss_std": 0.9056455663272313, "train/model_loss_mean": 2.935573819395784, "train/model_loss_std": 4.183537226218681, "train/model_opt_grad_norm": 10.66860919184499, "train/model_opt_grad_steps": 83785.0, "train/model_opt_loss": 2.935573819395784, "train/policy_entropy_mag": 2.6513801286746927, "train/policy_entropy_max": 2.6513801286746927, "train/policy_entropy_mean": 0.8264761311667306, "train/policy_entropy_min": 0.08019183072950933, "train/policy_entropy_std": 0.6952479489437946, "train/policy_logprob_mag": 7.495538247096074, "train/policy_logprob_max": -0.00948955976198633, "train/policy_logprob_mean": -0.8256943705794099, "train/policy_logprob_min": -7.495538247096074, "train/policy_logprob_std": 1.2481098314384362, "train/policy_randomness_mag": 0.9173145905717627, "train/policy_randomness_max": 0.9173145905717627, "train/policy_randomness_mean": 0.28594112415592393, "train/policy_randomness_min": 0.027744469922277835, "train/policy_randomness_std": 0.24053928517288975, "train/post_ent_mag": 63.59466614661279, "train/post_ent_max": 63.59466614661279, "train/post_ent_mean": 42.2235002641554, "train/post_ent_min": 12.71107005453729, "train/post_ent_std": 5.2119602135249545, "train/prior_ent_mag": 84.05584518630783, "train/prior_ent_max": 84.05584518630783, "train/prior_ent_mean": 45.19870019887949, "train/prior_ent_min": 15.937059179528967, "train/prior_ent_std": 7.200132617702732, "train/rep_loss_mean": 2.938469447098769, "train/rep_loss_std": 5.97734810160352, "train/reward_avg": 0.9663529829545454, "train/reward_loss_mean": 0.06267062802012864, "train/reward_loss_std": 0.23136794838038358, "train/reward_max_data": 94.54545454545455, "train/reward_max_pred": 54.32386361159288, "train/reward_neg_acc": 0.9756012144800904, "train/reward_neg_loss": 0.007224154942661415, "train/reward_pos_acc": 0.9952880000913298, "train/reward_pos_loss": 0.6443313735646087, "train/reward_pred": 0.87451397617916, "train/reward_rate": 0.0872945413961039, "train_stats/mean_log_entropy": 0.9773221611976624, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00012410135241225362, "report/cont_loss_std": 0.0029320435132831335, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0008287429809570312, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00012203090591356158, "report/cont_pred": 0.9969552755355835, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.951975107192993, "report/dyn_loss_std": 6.097711086273193, "report/image_loss_mean": 1.2067264318466187, "report/image_loss_std": 0.8050134778022766, "report/model_loss_mean": 3.031681776046753, "report/model_loss_std": 4.233258247375488, "report/post_ent_mag": 62.968135833740234, "report/post_ent_max": 62.968135833740234, "report/post_ent_mean": 42.89834213256836, "report/post_ent_min": 12.770304679870605, "report/post_ent_std": 4.982028007507324, "report/prior_ent_mag": 84.32749938964844, "report/prior_ent_max": 84.32749938964844, "report/prior_ent_mean": 45.81409454345703, "report/prior_ent_min": 13.463896751403809, "report/prior_ent_std": 7.229186058044434, "report/rep_loss_mean": 2.951975107192993, "report/rep_loss_std": 6.097711086273193, "report/reward_avg": 0.634765625, "report/reward_loss_mean": 0.0536462776362896, "report/reward_loss_std": 0.26135075092315674, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.006845474243164, "report/reward_neg_acc": 0.9822732210159302, "report/reward_neg_loss": 0.003180581843480468, "report/reward_pos_acc": 0.9846153855323792, "report/reward_pos_loss": 0.7982093095779419, "report/reward_pred": 0.5446097254753113, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.009890872985124588, "eval/cont_loss_std": 0.31456395983695984, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.07094669342041, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.602014061878435e-05, "eval/cont_pred": 0.9999446868896484, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 20.601139068603516, "eval/dyn_loss_std": 14.909782409667969, "eval/image_loss_mean": 5.270252704620361, "eval/image_loss_std": 2.9871139526367188, "eval/model_loss_mean": 18.137710571289062, "eval/model_loss_std": 11.111444473266602, "eval/post_ent_mag": 65.91728210449219, "eval/post_ent_max": 65.91728210449219, "eval/post_ent_mean": 43.60354232788086, "eval/post_ent_min": 26.3746337890625, "eval/post_ent_std": 4.294289588928223, "eval/prior_ent_mag": 84.32749938964844, "eval/prior_ent_max": 84.32749938964844, "eval/prior_ent_mean": 49.04231262207031, "eval/prior_ent_min": 29.064163208007812, "eval/prior_ent_std": 6.287501335144043, "eval/rep_loss_mean": 20.601139068603516, "eval/rep_loss_std": 14.909782409667969, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4968852996826172, "eval/reward_loss_std": 2.975435495376587, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006874084472656, "eval/reward_neg_acc": 0.9677743911743164, "eval/reward_neg_loss": 0.0328575074672699, "eval/reward_pos_acc": 0.032258063554763794, "eval/reward_pos_loss": 15.360742568969727, "eval/reward_pred": 0.04816389083862305, "eval/reward_rate": 0.0302734375, "replay/size": 117087.0, "replay/inserts": 1544.0, "replay/samples": 24704.0, "replay/insert_wait_avg": 4.939155875092344e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3061002900563373e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0314917564392, "timer/replay._sample_count": 24704.0, "timer/replay._sample_total": 380.47421622276306, "timer/replay._sample_frac": 1.268114270256757, "timer/replay._sample_avg": 0.015401320281038012, "timer/replay._sample_min": 0.0004899501800537109, "timer/replay._sample_max": 0.06009840965270996, "timer/env.step_count": 1544.0, "timer/env.step_total": 6.748754978179932, "timer/env.step_frac": 0.02249348872903803, "timer/env.step_avg": 0.0043709552967486605, "timer/env.step_min": 0.002354145050048828, "timer/env.step_max": 0.030717849731445312, "timer/agent.policy_count": 1544.0, "timer/agent.policy_total": 110.80782866477966, "timer/agent.policy_frac": 0.36932066036165195, "timer/agent.policy_avg": 0.07176672840983139, "timer/agent.policy_min": 0.002689361572265625, "timer/agent.policy_max": 0.3134803771972656, "timer/dataset_train_count": 1544.0, "timer/dataset_train_total": 0.15560126304626465, "timer/dataset_train_frac": 0.0005186164363458862, "timer/dataset_train_avg": 0.00010077802010768436, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.001323699951171875, "timer/agent.train_count": 1544.0, "timer/agent.train_total": 181.1102647781372, "timer/agent.train_frac": 0.6036375172415556, "timer/agent.train_avg": 0.1172993942863583, "timer/agent.train_min": 0.10386395454406738, "timer/agent.train_max": 0.20336246490478516, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26424741744995117, "timer/agent.report_frac": 0.0008807322721458287, "timer/agent.report_avg": 0.13212370872497559, "timer/agent.report_min": 0.09641098976135254, "timer/agent.report_max": 0.16783642768859863, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.535385131835938e-05, "timer/dataset_eval_frac": 2.844829748326828e-07, "timer/dataset_eval_avg": 8.535385131835938e-05, "timer/dataset_eval_min": 8.535385131835938e-05, "timer/dataset_eval_max": 8.535385131835938e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11145162582397461, "timer/agent.save_frac": 0.0003714664256459094, "timer/agent.save_avg": 0.11145162582397461, "timer/agent.save_min": 0.11145162582397461, "timer/agent.save_max": 0.11145162582397461, "fps": 20.583266420755372}
{"step": 343612, "episode/length": 824.0, "episode/score": 640.0, "episode/reward_rate": 0.07636363636363637}
{"step": 345920, "episode/length": 576.0, "episode/score": 1140.0, "episode/reward_rate": 0.11091854419410745}
{"step": 348272, "episode/length": 587.0, "episode/score": 1180.0, "episode/reward_rate": 0.11734693877551021}
{"step": 348816, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.001815697454637, "train/action_min": 0.0, "train/action_std": 4.343755288277903, "train/actor_opt_grad_norm": 0.007325979176488134, "train/actor_opt_grad_steps": 85330.0, "train/actor_opt_loss": -0.00013418351218206226, "train/adv_mag": 0.6985070902493692, "train/adv_max": 0.6651572998973632, "train/adv_mean": 0.0015125822945499807, "train/adv_min": -0.3863769530288635, "train/adv_std": 0.03199520759404667, "train/cont_avg": 0.9983492943548387, "train/cont_loss_mean": 0.0006639977082841142, "train/cont_loss_std": 0.016539325527279405, "train/cont_neg_acc": 0.9038978509845272, "train/cont_neg_loss": 0.23791714352198082, "train/cont_pos_acc": 0.9999178551858471, "train/cont_pos_loss": 0.00026166485793092145, "train/cont_pred": 0.9983382009690808, "train/cont_rate": 0.9983492943548387, "train/dyn_loss_mean": 2.9893581974890924, "train/dyn_loss_std": 6.010294649677892, "train/extr_critic_critic_opt_grad_norm": 1.4541552266766948, "train/extr_critic_critic_opt_grad_steps": 85330.0, "train/extr_critic_critic_opt_loss": 1.5050873979445427, "train/extr_critic_mag": 343.5639905375819, "train/extr_critic_max": 343.5639905375819, "train/extr_critic_mean": 132.49693820091986, "train/extr_critic_min": 0.08040309336877638, "train/extr_critic_std": 91.25180080782982, "train/extr_return_normed_mag": 1.3558338988211847, "train/extr_return_normed_max": 1.3558338988211847, "train/extr_return_normed_mean": 0.4395100389757464, "train/extr_return_normed_min": -0.021271562504191554, "train/extr_return_normed_std": 0.3182730468050126, "train/extr_return_rate": 0.9558594253755385, "train/extr_return_raw_mag": 397.3253774335307, "train/extr_return_raw_max": 397.3253774335307, "train/extr_return_raw_mean": 132.93397807459678, "train/extr_return_raw_min": 0.04496788268217877, "train/extr_return_raw_std": 91.79298026792465, "train/extr_reward_mag": 118.36558069413708, "train/extr_reward_max": 118.36558069413708, "train/extr_reward_mean": 0.8320481875250416, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.6056819831171345, "train/image_loss_mean": 1.1170808665214047, "train/image_loss_std": 0.9048405212740744, "train/model_loss_mean": 2.9733324481594945, "train/model_loss_std": 4.209418215290192, "train/model_opt_grad_norm": 10.78466931004678, "train/model_opt_grad_steps": 85330.0, "train/model_opt_loss": 2.9733324481594945, "train/policy_entropy_mag": 2.6564755901213615, "train/policy_entropy_max": 2.6564755901213615, "train/policy_entropy_mean": 0.8304635044067137, "train/policy_entropy_min": 0.08019195583558851, "train/policy_entropy_std": 0.6945978910692276, "train/policy_logprob_mag": 7.495536422729492, "train/policy_logprob_max": -0.009489587105570301, "train/policy_logprob_mean": -0.8309541417706398, "train/policy_logprob_min": -7.495536422729492, "train/policy_logprob_std": 1.2534271555562173, "train/policy_randomness_mag": 0.9190774975284454, "train/policy_randomness_max": 0.9190774975284454, "train/policy_randomness_mean": 0.28732065904525017, "train/policy_randomness_min": 0.02774451323334248, "train/policy_randomness_std": 0.24031438317991072, "train/post_ent_mag": 62.40731981338993, "train/post_ent_max": 62.40731981338993, "train/post_ent_mean": 42.3750614535424, "train/post_ent_min": 12.916508714614375, "train/post_ent_std": 5.156279234732351, "train/prior_ent_mag": 84.13788068217616, "train/prior_ent_max": 84.13788068217616, "train/prior_ent_mean": 45.35951668523973, "train/prior_ent_min": 16.29822570431617, "train/prior_ent_std": 7.130648486844955, "train/rep_loss_mean": 2.9893581974890924, "train/rep_loss_std": 6.010294649677892, "train/reward_avg": 0.9383190524193549, "train/reward_loss_mean": 0.06197265660570514, "train/reward_loss_std": 0.23587635976652946, "train/reward_max_data": 91.09677419354838, "train/reward_max_pred": 62.30023880620156, "train/reward_neg_acc": 0.975961608271445, "train/reward_neg_loss": 0.006954265023852067, "train/reward_pos_acc": 0.9939503638975082, "train/reward_pos_loss": 0.6557592226612953, "train/reward_pred": 0.8570740238312752, "train/reward_rate": 0.08526335685483871, "train_stats/mean_log_entropy": 0.9007532795270284, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0001956369524123147, "report/cont_loss_std": 0.00351863750256598, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.05702579766511917, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.442333637503907e-05, "report/cont_pred": 0.9980723857879639, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.590102195739746, "report/dyn_loss_std": 5.543924808502197, "report/image_loss_mean": 0.9263333082199097, "report/image_loss_std": 0.8804758191108704, "report/model_loss_mean": 2.543381690979004, "report/model_loss_std": 3.867192268371582, "report/post_ent_mag": 63.95201873779297, "report/post_ent_max": 63.95201873779297, "report/post_ent_mean": 41.49116516113281, "report/post_ent_min": 12.056644439697266, "report/post_ent_std": 5.35453462600708, "report/prior_ent_mag": 84.29521942138672, "report/prior_ent_max": 84.29521942138672, "report/prior_ent_mean": 44.225914001464844, "report/prior_ent_min": 13.624958038330078, "report/prior_ent_std": 7.340409755706787, "report/rep_loss_mean": 2.590102195739746, "report/rep_loss_std": 5.543924808502197, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.06279146671295166, "report/reward_loss_std": 0.1806160807609558, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.9826602935791, "report/reward_neg_acc": 0.9923329949378967, "report/reward_neg_loss": 0.0019247533055022359, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5634338855743408, "report/reward_pred": 1.05866539478302, "report/reward_rate": 0.1083984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.252924673484813e-07, "eval/cont_loss_std": 2.5235337943740888e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.252924673484813e-07, "eval/cont_pred": 0.9999997615814209, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 19.371810913085938, "eval/dyn_loss_std": 14.585137367248535, "eval/image_loss_mean": 5.1447296142578125, "eval/image_loss_std": 3.4385225772857666, "eval/model_loss_mean": 17.240955352783203, "eval/model_loss_std": 11.754668235778809, "eval/post_ent_mag": 56.7237548828125, "eval/post_ent_max": 56.7237548828125, "eval/post_ent_mean": 43.22184753417969, "eval/post_ent_min": 26.172672271728516, "eval/post_ent_std": 4.223694324493408, "eval/prior_ent_mag": 84.29521942138672, "eval/prior_ent_max": 84.29521942138672, "eval/prior_ent_mean": 48.41457748413086, "eval/prior_ent_min": 28.892601013183594, "eval/prior_ent_std": 6.402472496032715, "eval/rep_loss_mean": 19.371810913085938, "eval/rep_loss_std": 14.585137367248535, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.47313806414604187, "eval/reward_loss_std": 2.5615341663360596, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997663497924805, "eval/reward_neg_acc": 0.9495459198951721, "eval/reward_neg_loss": 0.058495115488767624, "eval/reward_pos_acc": 0.060606058686971664, "eval/reward_pos_loss": 12.9249906539917, "eval/reward_pred": 0.1253902018070221, "eval/reward_rate": 0.0322265625, "replay/size": 118635.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.849692647771318e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3025424585169909e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.4437904357910156e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08144521713257, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 378.8420081138611, "timer/replay._sample_frac": 1.2624639548764471, "timer/replay._sample_avg": 0.01529562371260744, "timer/replay._sample_min": 0.0004849433898925781, "timer/replay._sample_max": 0.042116403579711914, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.724695444107056, "timer/env.step_frac": 0.022409567640015893, "timer/env.step_avg": 0.004344118503945126, "timer/env.step_min": 0.0022995471954345703, "timer/env.step_max": 0.030642986297607422, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.93479824066162, "timer/agent.policy_frac": 0.36968229795211616, "timer/agent.policy_avg": 0.07166330635701655, "timer/agent.policy_min": 0.002907276153564453, "timer/agent.policy_max": 0.08739995956420898, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1505870819091797, "timer/dataset_train_frac": 0.0005018207033767718, "timer/dataset_train_avg": 9.727847668551659e-05, "timer/dataset_train_min": 5.8650970458984375e-05, "timer/dataset_train_max": 0.00019240379333496094, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 181.05894446372986, "timer/agent.train_frac": 0.6033660106266132, "timer/agent.train_avg": 0.11696314241843014, "timer/agent.train_min": 0.10391879081726074, "timer/agent.train_max": 0.20398569107055664, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25960397720336914, "timer/agent.report_frac": 0.0008651117266364976, "timer/agent.report_avg": 0.12980198860168457, "timer/agent.report_min": 0.09740257263183594, "timer/agent.report_max": 0.1622014045715332, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.078315734863281e-05, "timer/dataset_eval_frac": 1.692312475764278e-07, "timer/dataset_eval_avg": 5.078315734863281e-05, "timer/dataset_eval_min": 5.078315734863281e-05, "timer/dataset_eval_max": 5.078315734863281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.633206899969384}
{"step": 351320, "episode/length": 761.0, "episode/score": 1180.0, "episode/reward_rate": 0.08923884514435695}
{"step": 352884, "episode/length": 390.0, "episode/score": 1010.0, "episode/reward_rate": 0.1329923273657289}
{"step": 355024, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.986462796118952, "train/action_min": 0.0, "train/action_std": 4.271681957860147, "train/actor_opt_grad_norm": 0.007582670564372693, "train/actor_opt_grad_steps": 86880.0, "train/actor_opt_loss": 0.00010831570729234016, "train/adv_mag": 0.794396548886453, "train/adv_max": 0.765862129772863, "train/adv_mean": 0.0019791139990458406, "train/adv_min": -0.3753421072036989, "train/adv_std": 0.0346123545040046, "train/cont_avg": 0.9982610887096774, "train/cont_loss_mean": 0.0005741035841565454, "train/cont_loss_std": 0.014518768002506113, "train/cont_neg_acc": 0.9146825411016979, "train/cont_neg_loss": 0.22326864471575925, "train/cont_pos_acc": 0.9999368048483326, "train/cont_pos_loss": 0.00020567716015955926, "train/cont_pred": 0.9983150589850641, "train/cont_rate": 0.9982610887096774, "train/dyn_loss_mean": 2.969422037370743, "train/dyn_loss_std": 6.000376719813193, "train/extr_critic_critic_opt_grad_norm": 1.425396651990952, "train/extr_critic_critic_opt_grad_steps": 86880.0, "train/extr_critic_critic_opt_loss": 1.4726439552922403, "train/extr_critic_mag": 349.14328249039187, "train/extr_critic_max": 349.14328249039187, "train/extr_critic_mean": 136.88336363761655, "train/extr_critic_min": 0.048774499277914725, "train/extr_critic_std": 92.16355770480249, "train/extr_return_normed_mag": 1.4703877449035645, "train/extr_return_normed_max": 1.4703877449035645, "train/extr_return_normed_mean": 0.4506828142750648, "train/extr_return_normed_min": -0.02025236380436728, "train/extr_return_normed_std": 0.3184620141983032, "train/extr_return_rate": 0.9497110689840009, "train/extr_return_raw_mag": 435.02604251984627, "train/extr_return_raw_max": 435.02604251984627, "train/extr_return_raw_mean": 137.46085874495967, "train/extr_return_raw_min": 0.03609799207338402, "train/extr_return_raw_std": 92.92899531702841, "train/extr_reward_mag": 147.09796152422504, "train/extr_reward_max": 147.09796152422504, "train/extr_reward_mean": 0.8618735390324747, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.072617157813041, "train/image_loss_mean": 1.1085392925047106, "train/image_loss_std": 0.8975815738401105, "train/model_loss_mean": 2.953278467732091, "train/model_loss_std": 4.191805176581106, "train/model_opt_grad_norm": 10.259443679932625, "train/model_opt_grad_steps": 86880.0, "train/model_opt_loss": 2.953278467732091, "train/policy_entropy_mag": 2.652595021647792, "train/policy_entropy_max": 2.652595021647792, "train/policy_entropy_mean": 0.8323062971715004, "train/policy_entropy_min": 0.08019195362444848, "train/policy_entropy_std": 0.7041582857408831, "train/policy_logprob_mag": 7.495537714804373, "train/policy_logprob_max": -0.009489584047227136, "train/policy_logprob_mean": -0.8312514691583572, "train/policy_logprob_min": -7.495537714804373, "train/policy_logprob_std": 1.2564906435628092, "train/policy_randomness_mag": 0.9177349140567165, "train/policy_randomness_max": 0.9177349140567165, "train/policy_randomness_mean": 0.28795822003195365, "train/policy_randomness_min": 0.02774451242819909, "train/policy_randomness_std": 0.24362205353475386, "train/post_ent_mag": 62.87745700959236, "train/post_ent_max": 62.87745700959236, "train/post_ent_mean": 42.21349283033802, "train/post_ent_min": 13.196519273327242, "train/post_ent_std": 5.1568079117805725, "train/prior_ent_mag": 84.27998829503213, "train/prior_ent_max": 84.27998829503213, "train/prior_ent_mean": 45.19164704353579, "train/prior_ent_min": 16.231299535689814, "train/prior_ent_std": 7.2092143489468485, "train/rep_loss_mean": 2.969422037370743, "train/rep_loss_std": 6.000376719813193, "train/reward_avg": 0.9480216733870968, "train/reward_loss_mean": 0.06251183861205654, "train/reward_loss_std": 0.2388208300355942, "train/reward_max_data": 84.70967741935483, "train/reward_max_pred": 58.27910610937303, "train/reward_neg_acc": 0.9770383715629578, "train/reward_neg_loss": 0.007289143358056824, "train/reward_pos_acc": 0.9946929720140273, "train/reward_pos_loss": 0.6498361822097533, "train/reward_pred": 0.8727430899297037, "train/reward_rate": 0.08644783266129032, "train_stats/mean_log_entropy": 0.7256520390510559, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00013818926527164876, "report/cont_loss_std": 0.003184058703482151, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00011243043991271406, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00013821445463690907, "report/cont_pred": 0.9988903999328613, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.321296453475952, "report/dyn_loss_std": 6.411745548248291, "report/image_loss_mean": 1.3392267227172852, "report/image_loss_std": 1.0674114227294922, "report/model_loss_mean": 3.3894143104553223, "report/model_loss_std": 4.530625343322754, "report/post_ent_mag": 63.84748458862305, "report/post_ent_max": 63.84748458862305, "report/post_ent_mean": 42.45216369628906, "report/post_ent_min": 24.152118682861328, "report/post_ent_std": 4.809031963348389, "report/prior_ent_mag": 84.31307983398438, "report/prior_ent_max": 84.31307983398438, "report/prior_ent_mean": 45.962764739990234, "report/prior_ent_min": 27.965484619140625, "report/prior_ent_std": 6.518925666809082, "report/rep_loss_mean": 3.321296453475952, "report/rep_loss_std": 6.411745548248291, "report/reward_avg": 0.7421875, "report/reward_loss_mean": 0.05727139487862587, "report/reward_loss_std": 0.24238011240959167, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008611679077148, "report/reward_neg_acc": 0.9767932891845703, "report/reward_neg_loss": 0.007711625192314386, "report/reward_pos_acc": 0.9868420958518982, "report/reward_pos_loss": 0.6754643321037292, "report/reward_pred": 0.6935616731643677, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.005424438044428825, "eval/cont_loss_std": 0.1734565645456314, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.5533246994018555, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2706242387139355e-06, "eval/cont_pred": 0.9999949932098389, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.459186553955078, "eval/dyn_loss_std": 14.511927604675293, "eval/image_loss_mean": 4.6725897789001465, "eval/image_loss_std": 2.957191228866577, "eval/model_loss_mean": 16.756132125854492, "eval/model_loss_std": 10.967551231384277, "eval/post_ent_mag": 66.57345581054688, "eval/post_ent_max": 66.57345581054688, "eval/post_ent_mean": 43.117374420166016, "eval/post_ent_min": 27.85698699951172, "eval/post_ent_std": 4.696561813354492, "eval/prior_ent_mag": 84.31307983398438, "eval/prior_ent_max": 84.31307983398438, "eval/prior_ent_mean": 48.365325927734375, "eval/prior_ent_min": 30.495723724365234, "eval/prior_ent_std": 6.578559398651123, "eval/rep_loss_mean": 19.459186553955078, "eval/rep_loss_std": 14.511927604675293, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.4026077389717102, "eval/reward_loss_std": 2.4143147468566895, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.848668098449707, "eval/reward_neg_acc": 0.9447236061096191, "eval/reward_neg_loss": 0.039497118443250656, "eval/reward_pos_acc": 0.03448275849223137, "eval/reward_pos_loss": 12.861056327819824, "eval/reward_pred": 0.11509139835834503, "eval/reward_rate": 0.0283203125, "replay/size": 120187.0, "replay/inserts": 1552.0, "replay/samples": 24832.0, "replay/insert_wait_avg": 4.622893235118119e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2620284999768758e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.04582691192627, "timer/replay._sample_count": 24832.0, "timer/replay._sample_total": 366.31031608581543, "timer/replay._sample_frac": 1.2208478946562389, "timer/replay._sample_avg": 0.01475154301247646, "timer/replay._sample_min": 0.0004987716674804688, "timer/replay._sample_max": 0.04330182075500488, "timer/env.step_count": 1552.0, "timer/env.step_total": 6.598498106002808, "timer/env.step_frac": 0.021991634324378364, "timer/env.step_avg": 0.004251609604383253, "timer/env.step_min": 0.0024535655975341797, "timer/env.step_max": 0.02751946449279785, "timer/agent.policy_count": 1552.0, "timer/agent.policy_total": 111.76358699798584, "timer/agent.policy_frac": 0.3724883900178098, "timer/agent.policy_avg": 0.07201262048839294, "timer/agent.policy_min": 0.0027480125427246094, "timer/agent.policy_max": 0.08573770523071289, "timer/dataset_train_count": 1552.0, "timer/dataset_train_total": 0.14554786682128906, "timer/dataset_train_frac": 0.0004850854561760406, "timer/dataset_train_avg": 9.378084202402646e-05, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.0006175041198730469, "timer/agent.train_count": 1552.0, "timer/agent.train_total": 180.35454440116882, "timer/agent.train_frac": 0.6010899943431277, "timer/agent.train_avg": 0.1162078250007531, "timer/agent.train_min": 0.10370898246765137, "timer/agent.train_max": 0.20215225219726562, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2636895179748535, "timer/agent.report_frac": 0.0008788308129086408, "timer/agent.report_avg": 0.13184475898742676, "timer/agent.report_min": 0.0987856388092041, "timer/agent.report_max": 0.16490387916564941, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.649162292480469e-05, "timer/dataset_eval_frac": 1.5494840705933756e-07, "timer/dataset_eval_avg": 4.649162292480469e-05, "timer/dataset_eval_min": 4.649162292480469e-05, "timer/dataset_eval_max": 4.649162292480469e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.689088793132417}
{"step": 355176, "episode/length": 572.0, "episode/score": 1190.0, "episode/reward_rate": 0.12216404886561955}
{"step": 357472, "episode/length": 573.0, "episode/score": 720.0, "episode/reward_rate": 0.1254355400696864}
{"step": 359528, "episode/length": 513.0, "episode/score": 1120.0, "episode/reward_rate": 0.122568093385214}
{"step": 361220, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.860384245841734, "train/action_min": 0.0, "train/action_std": 4.362708753155124, "train/actor_opt_grad_norm": 0.007649694745158476, "train/actor_opt_grad_steps": 88430.0, "train/actor_opt_loss": 0.00032406621449486157, "train/adv_mag": 0.7619816524367179, "train/adv_max": 0.7210367370997706, "train/adv_mean": 0.001839202253892924, "train/adv_min": -0.39167321180143666, "train/adv_std": 0.0318578333503777, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0007405465067130712, "train/cont_loss_std": 0.01809470613666382, "train/cont_neg_acc": 0.9104477620836514, "train/cont_neg_loss": 0.2251879598708585, "train/cont_pos_acc": 0.9998989055233617, "train/cont_pos_loss": 0.0002939708967831635, "train/cont_pred": 0.9982535400698261, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.9900700369188864, "train/dyn_loss_std": 6.002551515640751, "train/extr_critic_critic_opt_grad_norm": 1.43546714667351, "train/extr_critic_critic_opt_grad_steps": 88430.0, "train/extr_critic_critic_opt_loss": 1.4616912426487092, "train/extr_critic_mag": 353.42266658659906, "train/extr_critic_max": 353.42266658659906, "train/extr_critic_mean": 135.11678235453945, "train/extr_critic_min": 0.45694392342721263, "train/extr_critic_std": 91.6923682182066, "train/extr_return_normed_mag": 1.4129439004005924, "train/extr_return_normed_max": 1.4129439004005924, "train/extr_return_normed_mean": 0.4394651547555001, "train/extr_return_normed_min": -0.021160893812174758, "train/extr_return_normed_std": 0.31459325869237226, "train/extr_return_rate": 0.948281717300415, "train/extr_return_raw_mag": 421.49044504473284, "train/extr_return_raw_max": 421.49044504473284, "train/extr_return_raw_mean": 135.6564223750945, "train/extr_return_raw_min": 0.4620238213769851, "train/extr_return_raw_std": 92.3743051590458, "train/extr_reward_mag": 140.57731880680208, "train/extr_reward_max": 140.57731880680208, "train/extr_reward_mean": 0.8369360335411564, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7331950879866076, "train/image_loss_mean": 1.1192936182022095, "train/image_loss_std": 0.894195088648027, "train/model_loss_mean": 2.974830639746881, "train/model_loss_std": 4.193886544627528, "train/model_opt_grad_norm": 10.374230637088898, "train/model_opt_grad_steps": 88430.0, "train/model_opt_loss": 2.974830639746881, "train/policy_entropy_mag": 2.648962677678754, "train/policy_entropy_max": 2.648962677678754, "train/policy_entropy_mean": 0.8535511470610095, "train/policy_entropy_min": 0.08019189291423368, "train/policy_entropy_std": 0.7014026799509602, "train/policy_logprob_mag": 7.495536613464355, "train/policy_logprob_max": -0.009489581036952233, "train/policy_logprob_mean": -0.8531468756737247, "train/policy_logprob_min": -7.495536613464355, "train/policy_logprob_std": 1.2613640000743251, "train/policy_randomness_mag": 0.9164782089571799, "train/policy_randomness_max": 0.9164782089571799, "train/policy_randomness_mean": 0.2953084371743664, "train/policy_randomness_min": 0.0277444914343857, "train/policy_randomness_std": 0.24266867714543497, "train/post_ent_mag": 63.756843689949285, "train/post_ent_max": 63.756843689949285, "train/post_ent_mean": 42.18853833598475, "train/post_ent_min": 13.538037115527738, "train/post_ent_std": 5.197963649995866, "train/prior_ent_mag": 84.45327350247291, "train/prior_ent_max": 84.45327350247291, "train/prior_ent_mean": 45.194343960669734, "train/prior_ent_min": 16.67487877261254, "train/prior_ent_std": 7.233606870712772, "train/rep_loss_mean": 2.9900700369188864, "train/rep_loss_std": 6.002551515640751, "train/reward_avg": 0.9273563508064516, "train/reward_loss_mean": 0.06075446783534942, "train/reward_loss_std": 0.23059718551174288, "train/reward_max_data": 87.80645161290323, "train/reward_max_pred": 57.48235016484414, "train/reward_neg_acc": 0.9771220976306546, "train/reward_neg_loss": 0.007080002431006682, "train/reward_pos_acc": 0.9948336566648176, "train/reward_pos_loss": 0.6443809382377133, "train/reward_pred": 0.8520927179244256, "train/reward_rate": 0.08451360887096775, "train_stats/mean_log_entropy": 0.7752111752827963, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.1433842195838224e-06, "report/cont_loss_std": 6.031017255736515e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.001770954579114914, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4153185929899337e-06, "report/cont_pred": 0.9990237951278687, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.947916030883789, "report/dyn_loss_std": 6.285027980804443, "report/image_loss_mean": 1.0551480054855347, "report/image_loss_std": 0.9289594888687134, "report/model_loss_mean": 2.881913185119629, "report/model_loss_std": 4.390748023986816, "report/post_ent_mag": 64.84649658203125, "report/post_ent_max": 64.84649658203125, "report/post_ent_mean": 42.087379455566406, "report/post_ent_min": 10.878361701965332, "report/post_ent_std": 5.537318706512451, "report/prior_ent_mag": 84.34343719482422, "report/prior_ent_max": 84.34343719482422, "report/prior_ent_mean": 45.053287506103516, "report/prior_ent_min": 13.154026985168457, "report/prior_ent_std": 7.320616722106934, "report/rep_loss_mean": 2.947916030883789, "report/rep_loss_std": 6.285027980804443, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.05801231041550636, "report/reward_loss_std": 0.25766974687576294, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.78049659729004, "report/reward_neg_acc": 0.9830329418182373, "report/reward_neg_loss": 0.005199079401791096, "report/reward_pos_acc": 0.9876543283462524, "report/reward_pos_loss": 0.672862708568573, "report/reward_pred": 0.7454715967178345, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0040473733097314835, "eval/cont_loss_std": 0.1294350028038025, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.143943786621094, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.545498424908146e-07, "eval/cont_pred": 0.9999839663505554, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 22.040746688842773, "eval/dyn_loss_std": 13.536151885986328, "eval/image_loss_mean": 5.901029586791992, "eval/image_loss_std": 3.0065600872039795, "eval/model_loss_mean": 19.57904052734375, "eval/model_loss_std": 10.430888175964355, "eval/post_ent_mag": 65.97055053710938, "eval/post_ent_max": 65.97055053710938, "eval/post_ent_mean": 44.36759948730469, "eval/post_ent_min": 27.999832153320312, "eval/post_ent_std": 4.619358539581299, "eval/prior_ent_mag": 84.34343719482422, "eval/prior_ent_max": 84.34343719482422, "eval/prior_ent_mean": 49.461814880371094, "eval/prior_ent_min": 30.035247802734375, "eval/prior_ent_std": 5.874314785003662, "eval/rep_loss_mean": 22.040746688842773, "eval/rep_loss_std": 13.536151885986328, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.44951650500297546, "eval/reward_loss_std": 2.8015758991241455, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.898832321166992, "eval/reward_neg_acc": 0.9509509205818176, "eval/reward_neg_loss": 0.03787343576550484, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 16.898773193359375, "eval/reward_pred": 0.11148729920387268, "eval/reward_rate": 0.0244140625, "replay/size": 121736.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.7048035554534935e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2600475776726542e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08092164993286, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 367.2053575515747, "timer/replay._sample_frac": 1.2236877823907366, "timer/replay._sample_avg": 0.014816226499014474, "timer/replay._sample_min": 0.0004544258117675781, "timer/replay._sample_max": 0.047446250915527344, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.638043642044067, "timer/env.step_frac": 0.0221208452891512, "timer/env.step_avg": 0.004285373558453239, "timer/env.step_min": 0.002334117889404297, "timer/env.step_max": 0.03146624565124512, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.77333283424377, "timer/agent.policy_frac": 0.37247730452066474, "timer/agent.policy_avg": 0.07215838142946661, "timer/agent.policy_min": 0.0027360916137695312, "timer/agent.policy_max": 0.2981736660003662, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.14506864547729492, "timer/dataset_train_frac": 0.0004834317512745062, "timer/dataset_train_avg": 9.365309585364424e-05, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.0004305839538574219, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.34382271766663, "timer/agent.train_frac": 0.6009839670115762, "timer/agent.train_avg": 0.11642596689326444, "timer/agent.train_min": 0.10309815406799316, "timer/agent.train_max": 0.20369791984558105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2614126205444336, "timer/agent.report_frac": 0.0008711404214140319, "timer/agent.report_avg": 0.1307063102722168, "timer/agent.report_min": 0.10156607627868652, "timer/agent.report_max": 0.15984654426574707, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.4345855712890625e-05, "timer/dataset_eval_frac": 1.47779657130697e-07, "timer/dataset_eval_avg": 4.4345855712890625e-05, "timer/dataset_eval_min": 4.4345855712890625e-05, "timer/dataset_eval_max": 4.4345855712890625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10180068016052246, "timer/agent.save_frac": 0.00033924409322922793, "timer/agent.save_avg": 0.10180068016052246, "timer/agent.save_min": 0.10180068016052246, "timer/agent.save_max": 0.10180068016052246, "fps": 20.64647149625781}
{"step": 361868, "episode/length": 584.0, "episode/score": 710.0, "episode/reward_rate": 0.12136752136752137}
{"step": 364476, "episode/length": 651.0, "episode/score": 1230.0, "episode/reward_rate": 0.11349693251533742}
{"step": 366756, "episode/length": 569.0, "episode/score": 1160.0, "episode/reward_rate": 0.11754385964912281}
{"step": 367428, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.831918236517136, "train/action_min": 0.0, "train/action_std": 4.418388808158136, "train/actor_opt_grad_norm": 0.00805804883280108, "train/actor_opt_grad_steps": 89980.0, "train/actor_opt_loss": 0.0002569172874744606, "train/adv_mag": 0.7619949905141707, "train/adv_max": 0.7368646354444566, "train/adv_mean": 0.0021294141138271023, "train/adv_min": -0.39400654194816465, "train/adv_std": 0.03548928482998764, "train/cont_avg": 0.9982925907258065, "train/cont_loss_mean": 0.0006209474303223524, "train/cont_loss_std": 0.015670140739386475, "train/cont_neg_acc": 0.9022309719108221, "train/cont_neg_loss": 0.22217189187066416, "train/cont_pos_acc": 0.9999305663570281, "train/cont_pos_loss": 0.00025627093342264854, "train/cont_pred": 0.9982712076556298, "train/cont_rate": 0.9982925907258065, "train/dyn_loss_mean": 2.919765212458949, "train/dyn_loss_std": 5.975752812047158, "train/extr_critic_critic_opt_grad_norm": 1.447474044561386, "train/extr_critic_critic_opt_grad_steps": 89980.0, "train/extr_critic_critic_opt_loss": 1.4366248630708265, "train/extr_critic_mag": 358.1808894988029, "train/extr_critic_max": 358.1808894988029, "train/extr_critic_mean": 140.64144695651146, "train/extr_critic_min": 0.16637429729584724, "train/extr_critic_std": 93.33105495822045, "train/extr_return_normed_mag": 1.45809112364246, "train/extr_return_normed_max": 1.45809112364246, "train/extr_return_normed_mean": 0.4536642198601077, "train/extr_return_normed_min": -0.022581175492415506, "train/extr_return_normed_std": 0.31839270236030703, "train/extr_return_rate": 0.94837580303992, "train/extr_return_raw_mag": 438.9238415133569, "train/extr_return_raw_max": 438.9238415133569, "train/extr_return_raw_mean": 141.27245232366747, "train/extr_return_raw_min": 0.08846417397951647, "train/extr_return_raw_std": 94.38832183345671, "train/extr_reward_mag": 132.5293858066682, "train/extr_reward_max": 132.5293858066682, "train/extr_reward_mean": 0.8891856403120102, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.114186006976712, "train/image_loss_mean": 1.088389818899093, "train/image_loss_std": 0.8799848129672388, "train/model_loss_mean": 2.904150532137963, "train/model_loss_std": 4.168702797735891, "train/model_opt_grad_norm": 10.682143934311405, "train/model_opt_grad_steps": 89980.0, "train/model_opt_loss": 2.904150532137963, "train/policy_entropy_mag": 2.6410884088085544, "train/policy_entropy_max": 2.6410884088085544, "train/policy_entropy_mean": 0.8358164272000713, "train/policy_entropy_min": 0.08019164454552435, "train/policy_entropy_std": 0.6948103289450368, "train/policy_logprob_mag": 7.495539003802884, "train/policy_logprob_max": -0.009489562843115099, "train/policy_logprob_mean": -0.8359128209852403, "train/policy_logprob_min": -7.495539003802884, "train/policy_logprob_std": 1.255431123702757, "train/policy_randomness_mag": 0.9137538990666789, "train/policy_randomness_max": 0.9137538990666789, "train/policy_randomness_mean": 0.28917264178875957, "train/policy_randomness_min": 0.02774440547631633, "train/policy_randomness_std": 0.24038788166738326, "train/post_ent_mag": 63.449649736958165, "train/post_ent_max": 63.449649736958165, "train/post_ent_mean": 41.989861494495024, "train/post_ent_min": 12.78380390290291, "train/post_ent_std": 5.157747757819391, "train/prior_ent_mag": 84.48937077676096, "train/prior_ent_max": 84.48937077676096, "train/prior_ent_mean": 44.941609881001135, "train/prior_ent_min": 16.048071455186413, "train/prior_ent_std": 7.214482445870677, "train/rep_loss_mean": 2.919765212458949, "train/rep_loss_std": 5.975752812047158, "train/reward_avg": 0.9835559475806451, "train/reward_loss_mean": 0.06328065753463775, "train/reward_loss_std": 0.23912112780155675, "train/reward_max_data": 104.19354838709677, "train/reward_max_pred": 66.22972919094947, "train/reward_neg_acc": 0.9772236862490254, "train/reward_neg_loss": 0.00722844245648312, "train/reward_pos_acc": 0.994516961420736, "train/reward_pos_loss": 0.6455451161630692, "train/reward_pred": 0.8918277354009689, "train/reward_rate": 0.08790952620967742, "train_stats/mean_log_entropy": 0.790307362874349, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.5198405637638643e-05, "report/cont_loss_std": 0.00044353227713145316, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.005662019830197096, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.416744362359168e-05, "report/cont_pred": 0.9980437755584717, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.0778961181640625, "report/dyn_loss_std": 6.300671577453613, "report/image_loss_mean": 1.2578551769256592, "report/image_loss_std": 0.9819632768630981, "report/model_loss_mean": 3.150178909301758, "report/model_loss_std": 4.47736930847168, "report/post_ent_mag": 64.19279479980469, "report/post_ent_max": 64.19279479980469, "report/post_ent_mean": 41.43465805053711, "report/post_ent_min": 13.091733932495117, "report/post_ent_std": 5.049104690551758, "report/prior_ent_mag": 84.62252044677734, "report/prior_ent_max": 84.62252044677734, "report/prior_ent_mean": 44.71284866333008, "report/prior_ent_min": 14.134950637817383, "report/prior_ent_std": 7.073404312133789, "report/rep_loss_mean": 3.0778961181640625, "report/rep_loss_std": 6.300671577453613, "report/reward_avg": 0.60546875, "report/reward_loss_mean": 0.045560866594314575, "report/reward_loss_std": 0.2018575370311737, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.011273384094238, "report/reward_neg_acc": 0.982328474521637, "report/reward_neg_loss": 0.004655811470001936, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6802489757537842, "report/reward_pred": 0.5506064891815186, "report/reward_rate": 0.060546875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.2399002713436857e-08, "eval/cont_loss_std": 9.430300451640505e-08, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2399002713436857e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 19.279342651367188, "eval/dyn_loss_std": 13.668867111206055, "eval/image_loss_mean": 5.056593418121338, "eval/image_loss_std": 3.0282838344573975, "eval/model_loss_mean": 17.16016960144043, "eval/model_loss_std": 10.666326522827148, "eval/post_ent_mag": 54.132869720458984, "eval/post_ent_max": 54.132869720458984, "eval/post_ent_mean": 43.06841278076172, "eval/post_ent_min": 30.10436248779297, "eval/post_ent_std": 4.090324878692627, "eval/prior_ent_mag": 84.62252044677734, "eval/prior_ent_max": 84.62252044677734, "eval/prior_ent_mean": 48.611907958984375, "eval/prior_ent_min": 28.587295532226562, "eval/prior_ent_std": 6.185032367706299, "eval/rep_loss_mean": 19.279342651367188, "eval/rep_loss_std": 13.668867111206055, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.5359704494476318, "eval/reward_loss_std": 3.180898904800415, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.964132308959961, "eval/reward_neg_acc": 0.9545913338661194, "eval/reward_neg_loss": 0.027282606810331345, "eval/reward_pos_acc": 0.09090908616781235, "eval/reward_pos_loss": 15.812018394470215, "eval/reward_pred": 0.08915092051029205, "eval/reward_rate": 0.0322265625, "replay/size": 123288.0, "replay/inserts": 1552.0, "replay/samples": 24832.0, "replay/insert_wait_avg": 4.676353071153778e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.259100114561848e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11780428886414, "timer/replay._sample_count": 24832.0, "timer/replay._sample_total": 367.4809956550598, "timer/replay._sample_frac": 1.2244558316885408, "timer/replay._sample_avg": 0.014798687002861622, "timer/replay._sample_min": 0.0004596710205078125, "timer/replay._sample_max": 0.06495308876037598, "timer/env.step_count": 1552.0, "timer/env.step_total": 6.613968133926392, "timer/env.step_frac": 0.022037906580045584, "timer/env.step_avg": 0.004261577405880407, "timer/env.step_min": 0.002250194549560547, "timer/env.step_max": 0.02909684181213379, "timer/agent.policy_count": 1552.0, "timer/agent.policy_total": 111.48000645637512, "timer/agent.policy_frac": 0.37145415854460717, "timer/agent.policy_avg": 0.07182990106725201, "timer/agent.policy_min": 0.0027000904083251953, "timer/agent.policy_max": 0.0880885124206543, "timer/dataset_train_count": 1552.0, "timer/dataset_train_total": 0.14744305610656738, "timer/dataset_train_frac": 0.0004912839358395848, "timer/dataset_train_avg": 9.50019691408295e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.00022220611572265625, "timer/agent.train_count": 1552.0, "timer/agent.train_total": 180.69700407981873, "timer/agent.train_frac": 0.6020869188616927, "timer/agent.train_avg": 0.11642848201019247, "timer/agent.train_min": 0.10309576988220215, "timer/agent.train_max": 0.20185089111328125, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2580885887145996, "timer/agent.report_frac": 0.0008599576067342832, "timer/agent.report_avg": 0.1290442943572998, "timer/agent.report_min": 0.09679388999938965, "timer/agent.report_max": 0.16129469871520996, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.412101745605469e-05, "timer/dataset_eval_frac": 1.8033257834967723e-07, "timer/dataset_eval_avg": 5.412101745605469e-05, "timer/dataset_eval_min": 5.412101745605469e-05, "timer/dataset_eval_max": 5.412101745605469e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.684012147849103}
{"step": 368496, "episode/length": 434.0, "episode/score": 1010.0, "episode/reward_rate": 0.11724137931034483}
{"step": 371064, "episode/length": 641.0, "episode/score": 730.0, "episode/reward_rate": 0.11370716510903427}
{"step": 373276, "episode/length": 552.0, "episode/score": 660.0, "episode/reward_rate": 0.11934900542495479}
{"step": 373620, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.921846648185484, "train/action_min": 0.0, "train/action_std": 4.333239693795481, "train/actor_opt_grad_norm": 0.008849036879837513, "train/actor_opt_grad_steps": 91530.0, "train/actor_opt_loss": 0.0005277639628245872, "train/adv_mag": 0.8491694283100867, "train/adv_max": 0.8172567026269051, "train/adv_mean": 0.0025814247683170364, "train/adv_min": -0.4049518247765879, "train/adv_std": 0.03862897854658865, "train/cont_avg": 0.9982988911290323, "train/cont_loss_mean": 0.0007904539880622183, "train/cont_loss_std": 0.019519861625929943, "train/cont_neg_acc": 0.8951822931412607, "train/cont_neg_loss": 0.27202148097345, "train/cont_pos_acc": 0.9999052220775235, "train/cont_pos_loss": 0.0002792662977126365, "train/cont_pred": 0.998338984674023, "train/cont_rate": 0.9982988911290323, "train/dyn_loss_mean": 3.00916403647392, "train/dyn_loss_std": 6.020799061559861, "train/extr_critic_critic_opt_grad_norm": 1.4978853125726024, "train/extr_critic_critic_opt_grad_steps": 91530.0, "train/extr_critic_critic_opt_loss": 1.4567074583422752, "train/extr_critic_mag": 356.47852970246345, "train/extr_critic_max": 356.47852970246345, "train/extr_critic_mean": 141.71970357587261, "train/extr_critic_min": 0.6000385830479283, "train/extr_critic_std": 93.08958373531219, "train/extr_return_normed_mag": 1.5020634274328908, "train/extr_return_normed_max": 1.5020634274328908, "train/extr_return_normed_mean": 0.4581609847084169, "train/extr_return_normed_min": -0.02059460753544925, "train/extr_return_normed_std": 0.3183449609625724, "train/extr_return_rate": 0.9505066014105273, "train/extr_return_raw_mag": 451.6387470860635, "train/extr_return_raw_max": 451.6387470860635, "train/extr_return_raw_mean": 142.48397807459676, "train/extr_return_raw_min": 0.5959884506815504, "train/extr_return_raw_std": 94.33888690087103, "train/extr_reward_mag": 152.17397365570068, "train/extr_reward_max": 152.17397365570068, "train/extr_reward_mean": 0.8952107379513402, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.318333525811473, "train/image_loss_mean": 1.098465895268225, "train/image_loss_std": 0.877227412116143, "train/model_loss_mean": 2.9684327079403783, "train/model_loss_std": 4.186556283889279, "train/model_opt_grad_norm": 10.0744065284729, "train/model_opt_grad_steps": 91530.0, "train/model_opt_loss": 2.9684327079403783, "train/policy_entropy_mag": 2.633375903098814, "train/policy_entropy_max": 2.633375903098814, "train/policy_entropy_mean": 0.8332053715182889, "train/policy_entropy_min": 0.08019188623274526, "train/policy_entropy_std": 0.6877920977530941, "train/policy_logprob_mag": 7.495535459826069, "train/policy_logprob_max": -0.009489590999099516, "train/policy_logprob_mean": -0.8334216360122927, "train/policy_logprob_min": -7.495535459826069, "train/policy_logprob_std": 1.2563855178894536, "train/policy_randomness_mag": 0.9110855540921611, "train/policy_randomness_max": 0.9110855540921611, "train/policy_randomness_mean": 0.2882692821564213, "train/policy_randomness_min": 0.027744489139126194, "train/policy_randomness_std": 0.2379597399503954, "train/post_ent_mag": 63.1556767371393, "train/post_ent_max": 63.1556767371393, "train/post_ent_mean": 41.935064352712324, "train/post_ent_min": 13.098435180417953, "train/post_ent_std": 5.1412081318516885, "train/prior_ent_mag": 84.62279416976436, "train/prior_ent_max": 84.62279416976436, "train/prior_ent_mean": 44.952963010726435, "train/prior_ent_min": 16.235003256028698, "train/prior_ent_std": 7.221523850963962, "train/rep_loss_mean": 3.00916403647392, "train/rep_loss_std": 6.020799061559861, "train/reward_avg": 1.0102696572580645, "train/reward_loss_mean": 0.0636779333314588, "train/reward_loss_std": 0.23770027660554455, "train/reward_max_data": 122.12903225806451, "train/reward_max_pred": 63.69058927105319, "train/reward_neg_acc": 0.9765172081608926, "train/reward_neg_loss": 0.007711974320362412, "train/reward_pos_acc": 0.994442634044155, "train/reward_pos_loss": 0.6416237585006221, "train/reward_pred": 0.9044819639575097, "train/reward_rate": 0.08871597782258064, "train_stats/mean_log_entropy": 0.8011542359987894, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.38753870007713e-07, "report/cont_loss_std": 6.908140221639769e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.38753870007713e-07, "report/cont_pred": 0.9999997615814209, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.9047129154205322, "report/dyn_loss_std": 5.541753768920898, "report/image_loss_mean": 1.1567866802215576, "report/image_loss_std": 0.665945827960968, "report/model_loss_mean": 2.952998161315918, "report/model_loss_std": 3.7467494010925293, "report/post_ent_mag": 59.382568359375, "report/post_ent_max": 59.382568359375, "report/post_ent_mean": 44.58981704711914, "report/post_ent_min": 23.13313102722168, "report/post_ent_std": 3.9315478801727295, "report/prior_ent_mag": 84.70330810546875, "report/prior_ent_max": 84.70330810546875, "report/prior_ent_mean": 47.59316635131836, "report/prior_ent_min": 29.52348518371582, "report/prior_ent_std": 6.007498264312744, "report/rep_loss_mean": 2.9047129154205322, "report/rep_loss_std": 5.541753768920898, "report/reward_avg": 0.76171875, "report/reward_loss_mean": 0.053383562713861465, "report/reward_loss_std": 0.2228952795267105, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.014644622802734, "report/reward_neg_acc": 0.9883720874786377, "report/reward_neg_loss": 0.006576241459697485, "report/reward_pos_acc": 0.9871795177459717, "report/reward_pos_loss": 0.6210723519325256, "report/reward_pred": 0.7256845235824585, "report/reward_rate": 0.076171875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0015400259289890528, "eval/cont_loss_std": 0.047903358936309814, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.7713200449943542, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.360713890288025e-05, "eval/cont_pred": 0.9987884759902954, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 19.244613647460938, "eval/dyn_loss_std": 13.29543685913086, "eval/image_loss_mean": 4.854775428771973, "eval/image_loss_std": 2.8109052181243896, "eval/model_loss_mean": 16.96621322631836, "eval/model_loss_std": 10.499436378479004, "eval/post_ent_mag": 66.74771881103516, "eval/post_ent_max": 66.74771881103516, "eval/post_ent_mean": 43.477760314941406, "eval/post_ent_min": 27.081523895263672, "eval/post_ent_std": 4.773257255554199, "eval/prior_ent_mag": 84.70330810546875, "eval/prior_ent_max": 84.70330810546875, "eval/prior_ent_mean": 48.180145263671875, "eval/prior_ent_min": 29.28357696533203, "eval/prior_ent_std": 6.463863849639893, "eval/rep_loss_mean": 19.244613647460938, "eval/rep_loss_std": 13.29543685913086, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.5631279945373535, "eval/reward_loss_std": 3.135044813156128, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.010233879089355, "eval/reward_neg_acc": 0.9294354319572449, "eval/reward_neg_loss": 0.06730382144451141, "eval/reward_pos_acc": 0.0625, "eval/reward_pos_loss": 15.933677673339844, "eval/reward_pred": 0.1750657558441162, "eval/reward_rate": 0.03125, "replay/size": 124836.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.843531960972828e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3293125678710542e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0265579223632812e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0066649913788, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 387.7113811969757, "timer/replay._sample_frac": 1.2923425591498685, "timer/replay._sample_avg": 0.015653721786053607, "timer/replay._sample_min": 0.0005931854248046875, "timer/replay._sample_max": 0.03864884376525879, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.698065519332886, "timer/env.step_frac": 0.022326389047141224, "timer/env.step_avg": 0.004326915710163363, "timer/env.step_min": 0.00229644775390625, "timer/env.step_max": 0.03047966957092285, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.19472455978394, "timer/agent.policy_frac": 0.37064084747243636, "timer/agent.policy_avg": 0.0718312174158811, "timer/agent.policy_min": 0.0028374195098876953, "timer/agent.policy_max": 0.08957505226135254, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15283966064453125, "timer/dataset_train_frac": 0.0005094542171218875, "timer/dataset_train_avg": 9.873363090731992e-05, "timer/dataset_train_min": 6.127357482910156e-05, "timer/dataset_train_max": 0.0002541542053222656, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.76377892494202, "timer/agent.train_frac": 0.6025325435024471, "timer/agent.train_avg": 0.1167724670057765, "timer/agent.train_min": 0.1017920970916748, "timer/agent.train_max": 0.2045001983642578, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26516175270080566, "timer/agent.report_frac": 0.0008838528727634287, "timer/agent.report_avg": 0.13258087635040283, "timer/agent.report_min": 0.10193371772766113, "timer/agent.report_max": 0.16322803497314453, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.859623602407928e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63806137328137}
{"step": 376492, "episode/length": 803.0, "episode/score": 1150.0, "episode/reward_rate": 0.08208955223880597}
{"step": 378756, "episode/length": 565.0, "episode/score": 1150.0, "episode/reward_rate": 0.11484098939929328}
{"step": 379800, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.904654422883064, "train/action_min": 0.0, "train/action_std": 4.2943434776798375, "train/actor_opt_grad_norm": 0.008152007352140162, "train/actor_opt_grad_steps": 93080.0, "train/actor_opt_loss": -2.3525160679766133e-05, "train/adv_mag": 0.7962761316568621, "train/adv_max": 0.7689595987719874, "train/adv_mean": 0.0019012155006660784, "train/adv_min": -0.38310891841688466, "train/adv_std": 0.03588457663934077, "train/cont_avg": 0.9983114919354839, "train/cont_loss_mean": 0.0005415748681241187, "train/cont_loss_std": 0.013770283359310517, "train/cont_neg_acc": 0.9217171723192389, "train/cont_neg_loss": 0.1839296162248419, "train/cont_pos_acc": 0.9999305432842623, "train/cont_pos_loss": 0.0002202005000866038, "train/cont_pred": 0.9983092965618257, "train/cont_rate": 0.9983114919354839, "train/dyn_loss_mean": 2.9503217097251646, "train/dyn_loss_std": 6.020136522477673, "train/extr_critic_critic_opt_grad_norm": 1.482533855976597, "train/extr_critic_critic_opt_grad_steps": 93080.0, "train/extr_critic_critic_opt_loss": 1.445027535192428, "train/extr_critic_mag": 359.85595604681197, "train/extr_critic_max": 359.85595604681197, "train/extr_critic_mean": 144.42604197840538, "train/extr_critic_min": 0.23197631989755937, "train/extr_critic_std": 95.27918388612808, "train/extr_return_normed_mag": 1.4489936878604273, "train/extr_return_normed_max": 1.4489936878604273, "train/extr_return_normed_mean": 0.46123930792654716, "train/extr_return_normed_min": -0.02248807870031845, "train/extr_return_normed_std": 0.3215152103093363, "train/extr_return_rate": 0.9487311482429505, "train/extr_return_raw_mag": 440.2614905572707, "train/extr_return_raw_max": 440.2614905572707, "train/extr_return_raw_mean": 144.99404882615613, "train/extr_return_raw_min": 0.38929606357292695, "train/extr_return_raw_std": 96.11997488698651, "train/extr_reward_mag": 143.61690392032747, "train/extr_reward_max": 143.61690392032747, "train/extr_reward_mean": 0.8896382385684598, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.238497264923588, "train/image_loss_mean": 1.0721836897634691, "train/image_loss_std": 0.8632779044489707, "train/model_loss_mean": 2.905988028741652, "train/model_loss_std": 4.181539684726346, "train/model_opt_grad_norm": 10.374755825534944, "train/model_opt_grad_steps": 93080.0, "train/model_opt_loss": 2.905988028741652, "train/policy_entropy_mag": 2.624984521250571, "train/policy_entropy_max": 2.624984521250571, "train/policy_entropy_mean": 0.8144587174538643, "train/policy_entropy_min": 0.08019180898704836, "train/policy_entropy_std": 0.6844732446055258, "train/policy_logprob_mag": 7.495537856317336, "train/policy_logprob_max": -0.009489579582887311, "train/policy_logprob_mean": -0.8149837968810912, "train/policy_logprob_min": -7.495537856317336, "train/policy_logprob_std": 1.2475275131963914, "train/policy_randomness_mag": 0.9081823364380868, "train/policy_randomness_max": 0.9081823364380868, "train/policy_randomness_mean": 0.281783385815159, "train/policy_randomness_min": 0.027744462389138438, "train/policy_randomness_std": 0.23681149463499745, "train/post_ent_mag": 63.820855737501574, "train/post_ent_max": 63.820855737501574, "train/post_ent_mean": 41.901851235666584, "train/post_ent_min": 12.822549226207117, "train/post_ent_std": 5.176401378262428, "train/prior_ent_mag": 84.72213784494707, "train/prior_ent_max": 84.72213784494707, "train/prior_ent_mean": 44.86155806510679, "train/prior_ent_min": 16.183204152507166, "train/prior_ent_std": 7.253794885450794, "train/rep_loss_mean": 2.9503217097251646, "train/rep_loss_std": 6.020136522477673, "train/reward_avg": 1.005796370967742, "train/reward_loss_mean": 0.06306975680974222, "train/reward_loss_std": 0.23895262893169156, "train/reward_max_data": 116.19354838709677, "train/reward_max_pred": 74.49072746769075, "train/reward_neg_acc": 0.9782350759352407, "train/reward_neg_loss": 0.006898121282668604, "train/reward_pos_acc": 0.9935209035873414, "train/reward_pos_loss": 0.6468058855302872, "train/reward_pred": 0.9094081349911228, "train/reward_rate": 0.08820564516129033, "train_stats/mean_log_entropy": 0.8206640183925629, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.0193781640264206e-05, "report/cont_loss_std": 0.0006666246918030083, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.020665332674980164, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0022582500823773e-05, "report/cont_pred": 0.9990334510803223, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.00537109375, "report/dyn_loss_std": 5.883467197418213, "report/image_loss_mean": 1.1371841430664062, "report/image_loss_std": 0.8640469312667847, "report/model_loss_mean": 2.9976375102996826, "report/model_loss_std": 4.096353054046631, "report/post_ent_mag": 65.02047729492188, "report/post_ent_max": 65.02047729492188, "report/post_ent_mean": 42.75203323364258, "report/post_ent_min": 11.388076782226562, "report/post_ent_std": 5.107367992401123, "report/prior_ent_mag": 84.62544250488281, "report/prior_ent_max": 84.62544250488281, "report/prior_ent_mean": 45.48188781738281, "report/prior_ent_min": 14.059198379516602, "report/prior_ent_std": 6.827469825744629, "report/rep_loss_mean": 3.00537109375, "report/rep_loss_std": 5.883467197418213, "report/reward_avg": 0.830078125, "report/reward_loss_mean": 0.05720050632953644, "report/reward_loss_std": 0.19789215922355652, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008779525756836, "report/reward_neg_acc": 0.97444087266922, "report/reward_neg_loss": 0.005588055122643709, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6273663640022278, "report/reward_pred": 0.7636113166809082, "report/reward_rate": 0.0830078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.4173043534101453e-07, "eval/cont_loss_std": 9.318415322923101e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.4173043534101453e-07, "eval/cont_pred": 0.9999995827674866, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 18.37615966796875, "eval/dyn_loss_std": 13.317298889160156, "eval/image_loss_mean": 5.192959785461426, "eval/image_loss_std": 3.117447853088379, "eval/model_loss_mean": 16.877382278442383, "eval/model_loss_std": 11.02607536315918, "eval/post_ent_mag": 56.67625427246094, "eval/post_ent_max": 56.67625427246094, "eval/post_ent_mean": 43.60026550292969, "eval/post_ent_min": 26.86870765686035, "eval/post_ent_std": 4.743197917938232, "eval/prior_ent_mag": 84.62544250488281, "eval/prior_ent_max": 84.62544250488281, "eval/prior_ent_mean": 48.73704528808594, "eval/prior_ent_min": 31.49663543701172, "eval/prior_ent_std": 6.359741687774658, "eval/rep_loss_mean": 18.37615966796875, "eval/rep_loss_std": 13.317298889160156, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.6587274074554443, "eval/reward_loss_std": 3.5387511253356934, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002290725708008, "eval/reward_neg_acc": 0.9725610613822937, "eval/reward_neg_loss": 0.020857971161603928, "eval/reward_pos_acc": 0.07500000298023224, "eval/reward_pos_loss": 16.350317001342773, "eval/reward_pred": 0.04808495193719864, "eval/reward_rate": 0.0390625, "replay/size": 126381.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.927780250129576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363882175927024e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.97599506378174, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 391.108544588089, "timer/replay._sample_frac": 1.3037994740376821, "timer/replay._sample_avg": 0.015821543065861206, "timer/replay._sample_min": 0.0005545616149902344, "timer/replay._sample_max": 0.06236696243286133, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.6931374073028564, "timer/env.step_frac": 0.022312243370939542, "timer/env.step_avg": 0.004332127771717059, "timer/env.step_min": 0.002363443374633789, "timer/env.step_max": 0.027963876724243164, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.08813619613647, "timer/agent.policy_frac": 0.370323419287322, "timer/agent.policy_avg": 0.07190170627581649, "timer/agent.policy_min": 0.002869844436645508, "timer/agent.policy_max": 0.1683027744293213, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15411067008972168, "timer/dataset_train_frac": 0.000513743341552894, "timer/dataset_train_avg": 9.97480065305642e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.0001964569091796875, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.86905574798584, "timer/agent.train_frac": 0.6029450980220232, "timer/agent.train_avg": 0.11706734999869634, "timer/agent.train_min": 0.10404634475708008, "timer/agent.train_max": 0.25864315032958984, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.196502685546875, "timer/agent.report_frac": 0.0006550613675107371, "timer/agent.report_avg": 0.0982513427734375, "timer/agent.report_min": 0.09763383865356445, "timer/agent.report_max": 0.09886884689331055, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.389617919921875e-05, "timer/dataset_eval_frac": 2.1300430784680943e-07, "timer/dataset_eval_avg": 6.389617919921875e-05, "timer/dataset_eval_min": 6.389617919921875e-05, "timer/dataset_eval_max": 6.389617919921875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16216754913330078, "timer/agent.save_frac": 0.0005406017541464285, "timer/agent.save_avg": 0.16216754913330078, "timer/agent.save_min": 0.16216754913330078, "timer/agent.save_max": 0.16216754913330078, "fps": 20.600608199432692}
{"step": 381264, "episode/length": 626.0, "episode/score": 2200.0, "episode/reward_rate": 0.11483253588516747}
{"step": 384828, "episode/length": 890.0, "episode/score": 720.0, "episode/reward_rate": 0.08080808080808081}
{"step": 385996, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.974974396940949, "train/action_min": 0.0, "train/action_std": 4.283031983809038, "train/actor_opt_grad_norm": 0.008144930688446605, "train/actor_opt_grad_steps": 94625.0, "train/actor_opt_loss": 0.0003080904421291029, "train/adv_mag": 0.7602343886316597, "train/adv_max": 0.7294867312559834, "train/adv_mean": 0.0021656046736071204, "train/adv_min": -0.41492452211194225, "train/adv_std": 0.03494503138006314, "train/cont_avg": 0.9984844257305194, "train/cont_loss_mean": 0.00042619355589666963, "train/cont_loss_std": 0.009783483143008186, "train/cont_neg_acc": 0.9342741942213427, "train/cont_neg_loss": 0.13398114037968592, "train/cont_pos_acc": 0.9999237648852459, "train/cont_pos_loss": 0.00022293284292710798, "train/cont_pred": 0.9984469866597807, "train/cont_rate": 0.9984844257305194, "train/dyn_loss_mean": 2.9621216229030063, "train/dyn_loss_std": 6.0101496739821, "train/extr_critic_critic_opt_grad_norm": 1.4481109191070904, "train/extr_critic_critic_opt_grad_steps": 94625.0, "train/extr_critic_critic_opt_loss": 1.4582413318869356, "train/extr_critic_mag": 360.4061580509334, "train/extr_critic_max": 360.4061580509334, "train/extr_critic_mean": 142.65869100991782, "train/extr_critic_min": 0.11961571117500205, "train/extr_critic_std": 94.23686842484908, "train/extr_return_normed_mag": 1.4043372323760739, "train/extr_return_normed_max": 1.4043372323760739, "train/extr_return_normed_mean": 0.4522406764618762, "train/extr_return_normed_min": -0.021397324018906077, "train/extr_return_normed_std": 0.3139096849731037, "train/extr_return_rate": 0.9521518674763766, "train/extr_return_raw_mag": 431.01600528073, "train/extr_return_raw_max": 431.01600528073, "train/extr_return_raw_mean": 143.31343029071758, "train/extr_return_raw_min": 0.09307753398119435, "train/extr_return_raw_std": 94.92205280452579, "train/extr_reward_mag": 141.27516349569544, "train/extr_reward_max": 141.27516349569544, "train/extr_reward_mean": 0.8686680275124389, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.153595157257922, "train/image_loss_mean": 1.0810389360050103, "train/image_loss_std": 0.8753242531380097, "train/model_loss_mean": 2.9206758551783376, "train/model_loss_std": 4.184138677336953, "train/model_opt_grad_norm": 10.26034911267169, "train/model_opt_grad_steps": 94625.0, "train/model_opt_loss": 2.9206758551783376, "train/policy_entropy_mag": 2.6393995238589003, "train/policy_entropy_max": 2.6393995238589003, "train/policy_entropy_mean": 0.8225813461588575, "train/policy_entropy_min": 0.0801917314045615, "train/policy_entropy_std": 0.6851013697587051, "train/policy_logprob_mag": 7.49553842358775, "train/policy_logprob_max": -0.00948956978882288, "train/policy_logprob_mean": -0.8231358992588984, "train/policy_logprob_min": -7.49553842358775, "train/policy_logprob_std": 1.2480048459845703, "train/policy_randomness_mag": 0.9131695844910361, "train/policy_randomness_max": 0.9131695844910361, "train/policy_randomness_mean": 0.28459362047059195, "train/policy_randomness_min": 0.027744435499627868, "train/policy_randomness_std": 0.23702881320730432, "train/post_ent_mag": 63.76817794898888, "train/post_ent_max": 63.76817794898888, "train/post_ent_mean": 41.88077542688939, "train/post_ent_min": 12.745751337571578, "train/post_ent_std": 5.18182373046875, "train/prior_ent_mag": 84.78729639424907, "train/prior_ent_max": 84.78729639424907, "train/prior_ent_mean": 44.885241644723074, "train/prior_ent_min": 15.904097798582795, "train/prior_ent_std": 7.243212275690847, "train/rep_loss_mean": 2.9621216229030063, "train/rep_loss_std": 6.0101496739821, "train/reward_avg": 1.0237418831168832, "train/reward_loss_mean": 0.06193775566318979, "train/reward_loss_std": 0.2355216368065252, "train/reward_max_data": 139.02597402597402, "train/reward_max_pred": 73.77055168771125, "train/reward_neg_acc": 0.9773792295486896, "train/reward_neg_loss": 0.006847552602124921, "train/reward_pos_acc": 0.9950904323683156, "train/reward_pos_loss": 0.6437822773859099, "train/reward_pred": 0.8882715729149905, "train/reward_rate": 0.08657797280844155, "train_stats/mean_log_entropy": 0.8588317632675171, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.181540134595707e-05, "report/cont_loss_std": 0.001243315520696342, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.039707452058792114, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.041561058125808e-06, "report/cont_pred": 0.9990584254264832, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.126478672027588, "report/dyn_loss_std": 6.137044906616211, "report/image_loss_mean": 1.1820600032806396, "report/image_loss_std": 0.9736177325248718, "report/model_loss_mean": 3.1027936935424805, "report/model_loss_std": 4.3652825355529785, "report/post_ent_mag": 60.82978439331055, "report/post_ent_max": 60.82978439331055, "report/post_ent_mean": 41.20069122314453, "report/post_ent_min": 9.478015899658203, "report/post_ent_std": 5.8904032707214355, "report/prior_ent_mag": 84.43096923828125, "report/prior_ent_max": 84.43096923828125, "report/prior_ent_mean": 44.25807189941406, "report/prior_ent_min": 15.222111701965332, "report/prior_ent_std": 7.571315288543701, "report/rep_loss_mean": 3.126478672027588, "report/rep_loss_std": 6.137044906616211, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 0.044804494827985764, "report/reward_loss_std": 0.17686548829078674, "report/reward_max_data": 20.0, "report/reward_max_pred": 13.226387023925781, "report/reward_neg_acc": 0.9802083969116211, "report/reward_neg_loss": 0.004445991013199091, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6501820683479309, "report/reward_pred": 0.5656185150146484, "report/reward_rate": 0.0625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007407824508845806, "eval/cont_loss_std": 0.2369285523891449, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.585419178009033, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.8854471761642344e-07, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.361310958862305, "eval/dyn_loss_std": 14.439839363098145, "eval/image_loss_mean": 4.963700294494629, "eval/image_loss_std": 3.059938669204712, "eval/model_loss_mean": 16.90658187866211, "eval/model_loss_std": 10.839886665344238, "eval/post_ent_mag": 66.50918579101562, "eval/post_ent_max": 66.50918579101562, "eval/post_ent_mean": 43.29833221435547, "eval/post_ent_min": 26.166095733642578, "eval/post_ent_std": 4.628609657287598, "eval/prior_ent_mag": 84.43096923828125, "eval/prior_ent_max": 84.43096923828125, "eval/prior_ent_mean": 48.76522445678711, "eval/prior_ent_min": 29.046066284179688, "eval/prior_ent_std": 6.46426248550415, "eval/rep_loss_mean": 19.361310958862305, "eval/rep_loss_std": 14.439839363098145, "eval/reward_avg": 0.2734375, "eval/reward_loss_mean": 0.31868866086006165, "eval/reward_loss_std": 2.032276153564453, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.985962867736816, "eval/reward_neg_acc": 0.9718876481056213, "eval/reward_neg_loss": 0.029804933816194534, "eval/reward_pos_acc": 0.1428571492433548, "eval/reward_pos_loss": 10.594695091247559, "eval/reward_pred": 0.07602887600660324, "eval/reward_rate": 0.02734375, "replay/size": 127930.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.761445283735853e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3264919420147497e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.041459083557129e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.121160030365, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 391.21755170822144, "timer/replay._sample_frac": 1.3035320524172294, "timer/replay._sample_avg": 0.0157850852044957, "timer/replay._sample_min": 0.0006117820739746094, "timer/replay._sample_max": 0.04039502143859863, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.661121606826782, "timer/env.step_frac": 0.022194774957396666, "timer/env.step_avg": 0.0043002721800043785, "timer/env.step_min": 0.002444028854370117, "timer/env.step_max": 0.030197858810424805, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.47364115715027, "timer/agent.policy_frac": 0.3714287961097839, "timer/agent.policy_avg": 0.07196490713825066, "timer/agent.policy_min": 0.002844095230102539, "timer/agent.policy_max": 0.08814597129821777, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15569567680358887, "timer/dataset_train_frac": 0.000518776072929467, "timer/dataset_train_avg": 0.00010051367127410514, "timer/dataset_train_min": 6.103515625e-05, "timer/dataset_train_max": 0.00019359588623046875, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.65723729133606, "timer/agent.train_frac": 0.6019476843054249, "timer/agent.train_avg": 0.11662830038175342, "timer/agent.train_min": 0.10322904586791992, "timer/agent.train_max": 0.20290136337280273, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2573986053466797, "timer/agent.report_frac": 0.0008576489752359919, "timer/agent.report_avg": 0.12869930267333984, "timer/agent.report_min": 0.09560370445251465, "timer/agent.report_max": 0.16179490089416504, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8748023185794668e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.643678806375767}
{"step": 388404, "episode/length": 893.0, "episode/score": 750.0, "episode/reward_rate": 0.08389261744966443}
{"step": 390208, "episode/length": 450.0, "episode/score": 1050.0, "episode/reward_rate": 0.12416851441241686}
{"step": 392184, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.890851420740928, "train/action_min": 0.0, "train/action_std": 4.3234191386930405, "train/actor_opt_grad_norm": 0.007663921927732806, "train/actor_opt_grad_steps": 96170.0, "train/actor_opt_loss": 0.00021945460940778796, "train/adv_mag": 0.7127491038653159, "train/adv_max": 0.6871899464438038, "train/adv_mean": 0.001982304992833956, "train/adv_min": -0.37164696704956796, "train/adv_std": 0.03263741170446719, "train/cont_avg": 0.9983555947580646, "train/cont_loss_mean": 0.0006464113674461661, "train/cont_loss_std": 0.015221577523271431, "train/cont_neg_acc": 0.9287634412607839, "train/cont_neg_loss": 0.20439424741464143, "train/cont_pos_acc": 0.9998988936024328, "train/cont_pos_loss": 0.00030343705004883204, "train/cont_pred": 0.9983198358166603, "train/cont_rate": 0.9983555947580646, "train/dyn_loss_mean": 3.078790263206728, "train/dyn_loss_std": 6.082589518639349, "train/extr_critic_critic_opt_grad_norm": 1.4474238853300772, "train/extr_critic_critic_opt_grad_steps": 96170.0, "train/extr_critic_critic_opt_loss": 1.4543919624820831, "train/extr_critic_mag": 361.2675787156628, "train/extr_critic_max": 361.2675787156628, "train/extr_critic_mean": 145.1051774547946, "train/extr_critic_min": 0.1903317097694643, "train/extr_critic_std": 94.76275181924143, "train/extr_return_normed_mag": 1.3610027436287173, "train/extr_return_normed_max": 1.3610027436287173, "train/extr_return_normed_mean": 0.45641102925423654, "train/extr_return_normed_min": -0.02127208150322399, "train/extr_return_normed_std": 0.31252331695249, "train/extr_return_rate": 0.9504167118380147, "train/extr_return_raw_mag": 420.83330708165323, "train/extr_return_raw_max": 420.83330708165323, "train/extr_return_raw_mean": 145.70638614777596, "train/extr_return_raw_min": 0.25603531955951647, "train/extr_return_raw_std": 95.19707336425782, "train/extr_reward_mag": 121.40569987758514, "train/extr_reward_max": 121.40569987758514, "train/extr_reward_mean": 0.8409006405261255, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.64211455622027, "train/image_loss_mean": 1.0967128415261544, "train/image_loss_std": 0.8873043552521737, "train/model_loss_mean": 3.0082579028221867, "train/model_loss_std": 4.241285234881985, "train/model_opt_grad_norm": 10.09055635390743, "train/model_opt_grad_steps": 96170.0, "train/model_opt_loss": 3.0082579028221867, "train/policy_entropy_mag": 2.6306589618805916, "train/policy_entropy_max": 2.6306589618805916, "train/policy_entropy_mean": 0.8162559482359117, "train/policy_entropy_min": 0.08019168175035907, "train/policy_entropy_std": 0.6797995113557385, "train/policy_logprob_mag": 7.495539120704897, "train/policy_logprob_max": -0.009489565853390001, "train/policy_logprob_mean": -0.816826658479629, "train/policy_logprob_min": -7.495539120704897, "train/policy_logprob_std": 1.2456364485525315, "train/policy_randomness_mag": 0.910145555773089, "train/policy_randomness_max": 0.910145555773089, "train/policy_randomness_mean": 0.28240518435355155, "train/policy_randomness_min": 0.027744418430712917, "train/policy_randomness_std": 0.2351944944550914, "train/post_ent_mag": 63.136873946651335, "train/post_ent_max": 63.136873946651335, "train/post_ent_mean": 41.79738737537015, "train/post_ent_min": 12.965825403890301, "train/post_ent_std": 5.21372246896067, "train/prior_ent_mag": 84.82081170851184, "train/prior_ent_max": 84.82081170851184, "train/prior_ent_mean": 44.84565761935326, "train/prior_ent_min": 16.127187636590772, "train/prior_ent_std": 7.323121676906463, "train/rep_loss_mean": 3.078790263206728, "train/rep_loss_std": 6.082589518639349, "train/reward_avg": 1.0041582661290323, "train/reward_loss_mean": 0.06362448535378902, "train/reward_loss_std": 0.24064900884705206, "train/reward_max_data": 140.96774193548387, "train/reward_max_pred": 77.98754220777943, "train/reward_neg_acc": 0.9762615296148485, "train/reward_neg_loss": 0.00751636553285343, "train/reward_pos_acc": 0.9934302218498722, "train/reward_pos_loss": 0.6539742796651778, "train/reward_pred": 0.8928770688272292, "train/reward_rate": 0.08717237903225807, "train_stats/mean_log_entropy": 0.9109739363193512, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 6.472953100455925e-05, "report/cont_loss_std": 0.0015836136881262064, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.02555970288813114, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4837215530860703e-05, "report/cont_pred": 0.998080849647522, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.960190534591675, "report/dyn_loss_std": 6.534354209899902, "report/image_loss_mean": 1.09480881690979, "report/image_loss_std": 0.9693548679351807, "report/model_loss_mean": 2.927539587020874, "report/model_loss_std": 4.540182590484619, "report/post_ent_mag": 62.42613220214844, "report/post_ent_max": 62.42613220214844, "report/post_ent_mean": 40.633201599121094, "report/post_ent_min": 11.669112205505371, "report/post_ent_std": 5.899287223815918, "report/prior_ent_mag": 84.76676940917969, "report/prior_ent_max": 84.76676940917969, "report/prior_ent_mean": 43.67256164550781, "report/prior_ent_min": 14.499116897583008, "report/prior_ent_std": 7.813568592071533, "report/rep_loss_mean": 2.960190534591675, "report/rep_loss_std": 6.534354209899902, "report/reward_avg": 0.888671875, "report/reward_loss_mean": 0.056551672518253326, "report/reward_loss_std": 0.1875472366809845, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.998685836791992, "report/reward_neg_acc": 0.9754011034965515, "report/reward_neg_loss": 0.005797470919787884, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5897559523582458, "report/reward_pred": 0.862524688243866, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.003428664291277528, "eval/cont_loss_std": 0.10452046990394592, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.342284679412842, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00016487571701873094, "eval/cont_pred": 0.9998136758804321, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 17.526634216308594, "eval/dyn_loss_std": 14.267782211303711, "eval/image_loss_mean": 4.500924110412598, "eval/image_loss_std": 3.0025808811187744, "eval/model_loss_mean": 15.300146102905273, "eval/model_loss_std": 10.651880264282227, "eval/post_ent_mag": 65.18672180175781, "eval/post_ent_max": 65.18672180175781, "eval/post_ent_mean": 42.66193389892578, "eval/post_ent_min": 25.745241165161133, "eval/post_ent_std": 5.273681163787842, "eval/prior_ent_mag": 84.76676940917969, "eval/prior_ent_max": 84.76676940917969, "eval/prior_ent_mean": 47.86605453491211, "eval/prior_ent_min": 27.94251251220703, "eval/prior_ent_std": 6.960723876953125, "eval/rep_loss_mean": 17.526634216308594, "eval/rep_loss_std": 14.267782211303711, "eval/reward_avg": 0.21484375, "eval/reward_loss_mean": 0.279812216758728, "eval/reward_loss_std": 1.9084919691085815, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008748054504395, "eval/reward_neg_acc": 0.9481037855148315, "eval/reward_neg_loss": 0.05740691348910332, "eval/reward_pos_acc": 0.1818181872367859, "eval/reward_pos_loss": 10.40936279296875, "eval/reward_pred": 0.1394421011209488, "eval/reward_rate": 0.021484375, "replay/size": 129477.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.979665616904063e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3277445135381658e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.4884939193725586e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06383514404297, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 390.1042194366455, "timer/replay._sample_frac": 1.3000707641071756, "timer/replay._sample_avg": 0.015760513067091367, "timer/replay._sample_min": 0.000457763671875, "timer/replay._sample_max": 0.05187344551086426, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.65583610534668, "timer/env.step_frac": 0.02218140050816722, "timer/env.step_avg": 0.004302415064865339, "timer/env.step_min": 0.0020744800567626953, "timer/env.step_max": 0.032204627990722656, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.0052125453949, "timer/agent.policy_frac": 0.36993865819287364, "timer/agent.policy_avg": 0.07175514708816735, "timer/agent.policy_min": 0.0027399063110351562, "timer/agent.policy_max": 0.08692002296447754, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1618785858154297, "timer/dataset_train_frac": 0.0005394804933347643, "timer/dataset_train_avg": 0.00010464032696537149, "timer/dataset_train_min": 6.389617919921875e-05, "timer/dataset_train_max": 0.0003619194030761719, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.02212023735046, "timer/agent.train_frac": 0.6032786995155628, "timer/agent.train_avg": 0.11701494520837134, "timer/agent.train_min": 0.1037595272064209, "timer/agent.train_max": 0.20843791961669922, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2635040283203125, "timer/agent.report_frac": 0.0008781599028547367, "timer/agent.report_avg": 0.13175201416015625, "timer/agent.report_min": 0.10294747352600098, "timer/agent.report_max": 0.16055655479431152, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.05718994140625e-05, "timer/dataset_eval_frac": 2.3518962016927194e-07, "timer/dataset_eval_avg": 7.05718994140625e-05, "timer/dataset_eval_min": 7.05718994140625e-05, "timer/dataset_eval_max": 7.05718994140625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.621106795221603}
{"step": 392628, "episode/length": 604.0, "episode/score": 1190.0, "episode/reward_rate": 0.11570247933884298}
{"step": 395072, "episode/length": 610.0, "episode/score": 610.0, "episode/reward_rate": 0.09983633387888707}
{"step": 397560, "episode/length": 621.0, "episode/score": 680.0, "episode/reward_rate": 0.10932475884244373}
{"step": 398368, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.913816784274193, "train/action_min": 0.0, "train/action_std": 4.255678864448301, "train/actor_opt_grad_norm": 0.008258495191412587, "train/actor_opt_grad_steps": 97720.0, "train/actor_opt_loss": 0.00021217266249667801, "train/adv_mag": 0.7518875878664755, "train/adv_max": 0.725158572293097, "train/adv_mean": 0.0018928722574679752, "train/adv_min": -0.39304915714648464, "train/adv_std": 0.034594098839067645, "train/cont_avg": 0.9982673891129032, "train/cont_loss_mean": 0.0005240716594423317, "train/cont_loss_std": 0.013229850338172542, "train/cont_neg_acc": 0.9370646774768829, "train/cont_neg_loss": 0.18045830886140082, "train/cont_pos_acc": 0.9999494433403016, "train/cont_pos_loss": 0.0001844251071190225, "train/cont_pred": 0.9982832897093988, "train/cont_rate": 0.9982673891129032, "train/dyn_loss_mean": 3.000903057282971, "train/dyn_loss_std": 6.084062982374622, "train/extr_critic_critic_opt_grad_norm": 1.5278192216350186, "train/extr_critic_critic_opt_grad_steps": 97720.0, "train/extr_critic_critic_opt_loss": 1.4829096363436791, "train/extr_critic_mag": 364.0782878260459, "train/extr_critic_max": 364.0782878260459, "train/extr_critic_mean": 144.77436119817918, "train/extr_critic_min": 0.22881346441084338, "train/extr_critic_std": 96.12960849885017, "train/extr_return_normed_mag": 1.3904785286995673, "train/extr_return_normed_max": 1.3904785286995673, "train/extr_return_normed_mean": 0.45349511600309805, "train/extr_return_normed_min": -0.024832599477902534, "train/extr_return_normed_std": 0.31824252009391785, "train/extr_return_rate": 0.9517200612252759, "train/extr_return_raw_mag": 430.1081789078251, "train/extr_return_raw_max": 430.1081789078251, "train/extr_return_raw_mean": 145.3494916362147, "train/extr_return_raw_min": 0.0071651888776555536, "train/extr_return_raw_std": 96.70061537219632, "train/extr_reward_mag": 145.24716873168944, "train/extr_reward_max": 145.24716873168944, "train/extr_reward_mean": 0.8441940265317117, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.022056190429195, "train/image_loss_mean": 1.089252999905617, "train/image_loss_std": 0.8791855223717228, "train/model_loss_mean": 2.95210949220965, "train/model_loss_std": 4.23602706386197, "train/model_opt_grad_norm": 10.090893293196155, "train/model_opt_grad_steps": 97720.0, "train/model_opt_loss": 2.95210949220965, "train/policy_entropy_mag": 2.631027521625642, "train/policy_entropy_max": 2.631027521625642, "train/policy_entropy_mean": 0.8046812345904689, "train/policy_entropy_min": 0.08019166689726615, "train/policy_entropy_std": 0.6686627553355309, "train/policy_logprob_mag": 7.495537028774138, "train/policy_logprob_max": -0.009489559748720738, "train/policy_logprob_mean": -0.804085176221786, "train/policy_logprob_min": -7.495537028774138, "train/policy_logprob_std": 1.2383284299604354, "train/policy_randomness_mag": 0.9102730708737528, "train/policy_randomness_max": 0.9102730708737528, "train/policy_randomness_mean": 0.27840060668606914, "train/policy_randomness_min": 0.027744413275391826, "train/policy_randomness_std": 0.2313414421773726, "train/post_ent_mag": 63.73960642660818, "train/post_ent_max": 63.73960642660818, "train/post_ent_mean": 41.79086466143208, "train/post_ent_min": 12.964269634985154, "train/post_ent_std": 5.19649138604441, "train/prior_ent_mag": 84.98451523319368, "train/prior_ent_max": 84.98451523319368, "train/prior_ent_mean": 44.84420414586221, "train/prior_ent_min": 16.284139996190223, "train/prior_ent_std": 7.323462092491888, "train/rep_loss_mean": 3.000903057282971, "train/rep_loss_std": 6.084062982374622, "train/reward_avg": 0.9975428427419355, "train/reward_loss_mean": 0.0617906091193999, "train/reward_loss_std": 0.2381959621944735, "train/reward_max_data": 122.38709677419355, "train/reward_max_pred": 64.37598485023744, "train/reward_neg_acc": 0.9769871654049043, "train/reward_neg_loss": 0.006856234858353292, "train/reward_pos_acc": 0.9931265654102448, "train/reward_pos_loss": 0.654883833085337, "train/reward_pred": 0.8661140684158571, "train/reward_rate": 0.08532006048387097, "train_stats/mean_log_entropy": 0.8192651470502218, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00019849228556267917, "report/cont_loss_std": 0.003366517135873437, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01516969595104456, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00016919443442020565, "report/cont_pred": 0.9979127049446106, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.565690040588379, "report/dyn_loss_std": 6.122676372528076, "report/image_loss_mean": 0.8310382962226868, "report/image_loss_std": 0.7832688689231873, "report/model_loss_mean": 2.427391529083252, "report/model_loss_std": 4.200327396392822, "report/post_ent_mag": 63.33941650390625, "report/post_ent_max": 63.33941650390625, "report/post_ent_mean": 40.8118782043457, "report/post_ent_min": 9.49515151977539, "report/post_ent_std": 6.56983757019043, "report/prior_ent_mag": 85.0715560913086, "report/prior_ent_max": 85.0715560913086, "report/prior_ent_mean": 43.253456115722656, "report/prior_ent_min": 12.02670669555664, "report/prior_ent_std": 8.604540824890137, "report/rep_loss_mean": 2.565690040588379, "report/rep_loss_std": 6.122676372528076, "report/reward_avg": 0.927734375, "report/reward_loss_mean": 0.05674055963754654, "report/reward_loss_std": 0.1822298914194107, "report/reward_max_data": 20.0, "report/reward_max_pred": 20.002519607543945, "report/reward_neg_acc": 0.9838883280754089, "report/reward_neg_loss": 0.004511263687163591, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5795950889587402, "report/reward_pred": 0.8959362506866455, "report/reward_rate": 0.0908203125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.02558121643960476, "eval/cont_loss_std": 0.4781271815299988, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.547057151794434, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 6.803369615226984e-06, "eval/cont_pred": 0.9997466206550598, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 17.923503875732422, "eval/dyn_loss_std": 14.680221557617188, "eval/image_loss_mean": 4.041788101196289, "eval/image_loss_std": 2.8737363815307617, "eval/model_loss_mean": 15.257695198059082, "eval/model_loss_std": 11.226334571838379, "eval/post_ent_mag": 66.50491333007812, "eval/post_ent_max": 66.50491333007812, "eval/post_ent_mean": 42.15386199951172, "eval/post_ent_min": 26.405799865722656, "eval/post_ent_std": 5.19581413269043, "eval/prior_ent_mag": 85.0715560913086, "eval/prior_ent_max": 85.0715560913086, "eval/prior_ent_mean": 47.04045486450195, "eval/prior_ent_min": 28.439905166625977, "eval/prior_ent_std": 7.525742053985596, "eval/rep_loss_mean": 17.923503875732422, "eval/rep_loss_std": 14.680221557617188, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.4362240731716156, "eval/reward_loss_std": 2.6882588863372803, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.984161376953125, "eval/reward_neg_acc": 0.9576612710952759, "eval/reward_neg_loss": 0.0482204295694828, "eval/reward_pos_acc": 0.1875, "eval/reward_pos_loss": 12.464336395263672, "eval/reward_pred": 0.13177621364593506, "eval/reward_rate": 0.03125, "replay/size": 131023.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.836535237893405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3068877401512313e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7881393432617188e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.029705286026, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 380.1457061767578, "timer/replay._sample_frac": 1.2670268959347049, "timer/replay._sample_avg": 0.015368115547249265, "timer/replay._sample_min": 0.0004699230194091797, "timer/replay._sample_max": 0.04755854606628418, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.752946376800537, "timer/env.step_frac": 0.02250759260774789, "timer/env.step_avg": 0.004368011886675638, "timer/env.step_min": 0.0024023056030273438, "timer/env.step_max": 0.03438115119934082, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.83326196670532, "timer/agent.policy_frac": 0.3694076286914495, "timer/agent.policy_avg": 0.07169033762400086, "timer/agent.policy_min": 0.0028946399688720703, "timer/agent.policy_max": 0.15426135063171387, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15134119987487793, "timer/dataset_train_frac": 0.000504420719710405, "timer/dataset_train_avg": 9.789210858659633e-05, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.0002357959747314453, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.1033444404602, "timer/agent.train_frac": 0.6036180459791798, "timer/agent.train_avg": 0.1171431723418242, "timer/agent.train_min": 0.10407876968383789, "timer/agent.train_max": 0.2510192394256592, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2565007209777832, "timer/agent.report_frac": 0.00085491775133817, "timer/agent.report_avg": 0.1282503604888916, "timer/agent.report_min": 0.0970916748046875, "timer/agent.report_max": 0.1594090461730957, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.47930772750561e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.0861520767211914, "timer/agent.save_frac": 0.0002871451566406081, "timer/agent.save_avg": 0.0861520767211914, "timer/agent.save_min": 0.0861520767211914, "timer/agent.save_max": 0.0861520767211914, "fps": 20.610167030669427}
{"step": 399676, "episode/length": 528.0, "episode/score": 520.0, "episode/reward_rate": 0.09829867674858223}
{"step": 400000, "eval_episode/length": 786.0, "eval_episode/score": 580.0, "eval_episode/reward_rate": 0.07369758576874205}
{"step": 400004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.099671898818597, "train/action_min": 0.0, "train/action_std": 4.345529637685636, "train/actor_opt_grad_norm": 0.007398300031881507, "train/actor_opt_grad_steps": 98700.0, "train/actor_opt_loss": -0.00010676501573825812, "train/adv_mag": 0.6141877817671474, "train/adv_max": 0.5889995857709791, "train/adv_mean": 0.001242854953910332, "train/adv_min": -0.39546674926106523, "train/adv_std": 0.028735053657395083, "train/cont_avg": 0.9983326981707317, "train/cont_loss_mean": 0.0005188883285608539, "train/cont_loss_std": 0.013172230153164802, "train/cont_neg_acc": 0.9142857151372092, "train/cont_neg_loss": 0.19337526259845877, "train/cont_pos_acc": 0.9999761552345462, "train/cont_pos_loss": 0.00014686612656325198, "train/cont_pred": 0.9983865764082932, "train/cont_rate": 0.9983326981707317, "train/dyn_loss_mean": 2.916073525824198, "train/dyn_loss_std": 5.913633765243903, "train/extr_critic_critic_opt_grad_norm": 1.5259704735220931, "train/extr_critic_critic_opt_grad_steps": 98700.0, "train/extr_critic_critic_opt_loss": 1.439645752674196, "train/extr_critic_mag": 364.42359738233614, "train/extr_critic_max": 364.42359738233614, "train/extr_critic_mean": 145.23283795612613, "train/extr_critic_min": 0.5494305913041277, "train/extr_critic_std": 95.59856154279011, "train/extr_return_normed_mag": 1.24295813572116, "train/extr_return_normed_max": 1.24295813572116, "train/extr_return_normed_mean": 0.45282734966859584, "train/extr_return_normed_min": -0.020480612951626138, "train/extr_return_normed_std": 0.31251753539573857, "train/extr_return_rate": 0.9459048349682878, "train/extr_return_raw_mag": 388.122528820503, "train/extr_return_raw_max": 388.122528820503, "train/extr_return_raw_mean": 145.61460094917112, "train/extr_return_raw_min": 0.4290756648633538, "train/extr_return_raw_std": 95.87339224466463, "train/extr_reward_mag": 107.63989185705418, "train/extr_reward_max": 107.63989185705418, "train/extr_reward_mean": 0.8419165102446952, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.343681475011314, "train/image_loss_mean": 1.0274090214473446, "train/image_loss_std": 0.8428041775052141, "train/model_loss_mean": 2.8388273541520284, "train/model_loss_std": 4.102719987311015, "train/model_opt_grad_norm": 9.915709832819497, "train/model_opt_grad_steps": 98700.0, "train/model_opt_loss": 2.8388273541520284, "train/policy_entropy_mag": 2.6314057082664677, "train/policy_entropy_max": 2.6314057082664677, "train/policy_entropy_mean": 0.8020332862691182, "train/policy_entropy_min": 0.08019180650391229, "train/policy_entropy_std": 0.6761615683392781, "train/policy_logprob_mag": 7.495536850719917, "train/policy_logprob_max": -0.009489554116820417, "train/policy_logprob_mean": -0.8026242052636495, "train/policy_logprob_min": -7.495536850719917, "train/policy_logprob_std": 1.2357303572864067, "train/policy_randomness_mag": 0.9104039145679008, "train/policy_randomness_max": 0.9104039145679008, "train/policy_randomness_mean": 0.27748448020074423, "train/policy_randomness_min": 0.027744461668700707, "train/policy_randomness_std": 0.23393585405698636, "train/post_ent_mag": 63.224852771293826, "train/post_ent_max": 63.224852771293826, "train/post_ent_mean": 41.9132505277308, "train/post_ent_min": 12.323341485930651, "train/post_ent_std": 5.2841326667041315, "train/prior_ent_mag": 84.96370827279439, "train/prior_ent_max": 84.96370827279439, "train/prior_ent_mean": 44.86717019430021, "train/prior_ent_min": 15.257943572067633, "train/prior_ent_std": 7.364211512774956, "train/rep_loss_mean": 2.916073525824198, "train/rep_loss_std": 5.913633765243903, "train/reward_avg": 1.0194359756097562, "train/reward_loss_mean": 0.06125532690344787, "train/reward_loss_std": 0.2397956924467552, "train/reward_max_data": 134.14634146341464, "train/reward_max_pred": 88.23822300608565, "train/reward_neg_acc": 0.9784267631972708, "train/reward_neg_loss": 0.006692650875576385, "train/reward_pos_acc": 0.9928813140566756, "train/reward_pos_loss": 0.6444245635009394, "train/reward_pred": 0.901356313286758, "train/reward_rate": 0.08591368140243902, "train_stats/mean_log_entropy": 0.8328790664672852, "eval_stats/mean_log_entropy": 0.0, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.870384145760909e-05, "report/cont_loss_std": 0.001258481410332024, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.019867200404405594, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.92009518085979e-06, "report/cont_pred": 0.998075008392334, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.9654171466827393, "report/dyn_loss_std": 5.493913650512695, "report/image_loss_mean": 1.1269173622131348, "report/image_loss_std": 0.8222349286079407, "report/model_loss_mean": 2.9930789470672607, "report/model_loss_std": 3.820402145385742, "report/post_ent_mag": 63.97736358642578, "report/post_ent_max": 63.97736358642578, "report/post_ent_mean": 41.860504150390625, "report/post_ent_min": 25.560272216796875, "report/post_ent_std": 4.41393518447876, "report/prior_ent_mag": 84.98860931396484, "report/prior_ent_max": 84.98860931396484, "report/prior_ent_mean": 44.96831512451172, "report/prior_ent_min": 27.84816551208496, "report/prior_ent_std": 6.732574939727783, "report/rep_loss_mean": 2.9654171466827393, "report/rep_loss_std": 5.493913650512695, "report/reward_avg": 1.142578125, "report/reward_loss_mean": 0.08686250448226929, "report/reward_loss_std": 0.2646775543689728, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.006942749023438, "report/reward_neg_acc": 0.9735391736030579, "report/reward_neg_loss": 0.010761496610939503, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6768079400062561, "report/reward_pred": 1.0391743183135986, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0076589626260101795, "eval/cont_loss_std": 0.24495507776737213, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.8423943519592285, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.7507817296500434e-07, "eval/cont_pred": 0.9999992251396179, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.542190551757812, "eval/dyn_loss_std": 14.87089729309082, "eval/image_loss_mean": 4.41523551940918, "eval/image_loss_std": 2.6686253547668457, "eval/model_loss_mean": 16.565927505493164, "eval/model_loss_std": 10.920223236083984, "eval/post_ent_mag": 65.65839385986328, "eval/post_ent_max": 65.65839385986328, "eval/post_ent_mean": 42.421478271484375, "eval/post_ent_min": 27.8917236328125, "eval/post_ent_std": 4.596161365509033, "eval/prior_ent_mag": 84.98860931396484, "eval/prior_ent_max": 84.98860931396484, "eval/prior_ent_mean": 47.30582809448242, "eval/prior_ent_min": 29.039770126342773, "eval/prior_ent_std": 6.45636510848999, "eval/rep_loss_mean": 19.542190551757812, "eval/rep_loss_std": 14.87089729309082, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.41771775484085083, "eval/reward_loss_std": 2.5734870433807373, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.99959659576416, "eval/reward_neg_acc": 0.9688128232955933, "eval/reward_neg_loss": 0.03521215543150902, "eval/reward_pos_acc": 0.06666667014360428, "eval/reward_pos_loss": 13.091404914855957, "eval/reward_pred": 0.08849003911018372, "eval/reward_rate": 0.029296875, "replay/size": 131432.0, "replay/inserts": 409.0, "replay/samples": 6544.0, "replay/insert_wait_avg": 4.886706475815155e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3119579818837508e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 57839.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": 2.905075912701148e-06, "eval_replay/insert_wait_frac": 1.0, "eval_replay/sample_wait_avg": 2.4586915969848633e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 451.43393445014954, "timer/replay._sample_count": 6544.0, "timer/replay._sample_total": 101.25437426567078, "timer/replay._sample_frac": 0.22429499986304638, "timer/replay._sample_avg": 0.0154728567031893, "timer/replay._sample_min": 0.0004248619079589844, "timer/replay._sample_max": 0.05118989944458008, "timer/env.step_count": 409.0, "timer/env.step_total": 1.7941982746124268, "timer/env.step_frac": 0.003974442632005004, "timer/env.step_avg": 0.004386792847463146, "timer/env.step_min": 0.0023658275604248047, "timer/env.step_max": 0.025510549545288086, "timer/agent.policy_count": 58311.0, "timer/agent.policy_total": 219.39662432670593, "timer/agent.policy_frac": 0.485999406743609, "timer/agent.policy_avg": 0.003762525498219992, "timer/agent.policy_min": 0.0023407936096191406, "timer/agent.policy_max": 1.7789576053619385, "timer/dataset_train_count": 409.0, "timer/dataset_train_total": 0.04060983657836914, "timer/dataset_train_frac": 8.995743004528952e-05, "timer/dataset_train_avg": 9.929055398134264e-05, "timer/dataset_train_min": 5.6743621826171875e-05, "timer/dataset_train_max": 0.0013020038604736328, "timer/agent.train_count": 409.0, "timer/agent.train_total": 47.811594009399414, "timer/agent.train_frac": 0.10591050065306755, "timer/agent.train_avg": 0.11689876285916727, "timer/agent.train_min": 0.10428762435913086, "timer/agent.train_max": 0.19957470893859863, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26380157470703125, "timer/agent.report_frac": 0.000584363634577768, "timer/agent.report_avg": 0.13190078735351562, "timer/agent.report_min": 0.09609580039978027, "timer/agent.report_max": 0.16770577430725098, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.580352783203125e-05, "timer/dataset_eval_frac": 1.457655767774315e-07, "timer/dataset_eval_avg": 6.580352783203125e-05, "timer/dataset_eval_min": 6.580352783203125e-05, "timer/dataset_eval_max": 6.580352783203125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 3.623721120917376}
{"step": 401604, "episode/length": 481.0, "episode/score": 1040.0, "episode/reward_rate": 0.11410788381742738}
{"step": 404200, "episode/length": 648.0, "episode/score": 1200.0, "episode/reward_rate": 0.10939907550077041}
{"step": 405760, "episode/length": 389.0, "episode/score": 980.0, "episode/reward_rate": 0.12307692307692308}
{"step": 406192, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.937966482979911, "train/action_min": 0.0, "train/action_std": 4.307817002395531, "train/actor_opt_grad_norm": 0.008449327838667607, "train/actor_opt_grad_steps": 99675.0, "train/actor_opt_loss": 0.0003803667710103169, "train/adv_mag": 0.7725354853001508, "train/adv_max": 0.7446557150839211, "train/adv_mean": 0.002050031047802249, "train/adv_min": -0.42628318893832046, "train/adv_std": 0.03543828592284933, "train/cont_avg": 0.9982244318181818, "train/cont_loss_mean": 0.0005941695355380592, "train/cont_loss_std": 0.01576334975724733, "train/cont_neg_acc": 0.9368766417184214, "train/cont_neg_loss": 0.16719965352576835, "train/cont_pos_acc": 0.9999427590277288, "train/cont_pos_loss": 0.0002336315890840568, "train/cont_pred": 0.9982427025770212, "train/cont_rate": 0.9982244318181818, "train/dyn_loss_mean": 3.1100750495861105, "train/dyn_loss_std": 6.058798514403306, "train/extr_critic_critic_opt_grad_norm": 1.5162509931372357, "train/extr_critic_critic_opt_grad_steps": 99675.0, "train/extr_critic_critic_opt_loss": 1.4884188569985426, "train/extr_critic_mag": 365.98877151291094, "train/extr_critic_max": 365.98877151291094, "train/extr_critic_mean": 146.54294105628867, "train/extr_critic_min": 0.16969904110029146, "train/extr_critic_std": 98.21695042895033, "train/extr_return_normed_mag": 1.4167994508495578, "train/extr_return_normed_max": 1.4167994508495578, "train/extr_return_normed_mean": 0.45574197714979, "train/extr_return_normed_min": -0.021490395226358594, "train/extr_return_normed_std": 0.321021779887862, "train/extr_return_rate": 0.9503927846233566, "train/extr_return_raw_mag": 443.1113737032011, "train/extr_return_raw_max": 443.1113737032011, "train/extr_return_raw_mean": 147.17415272105825, "train/extr_return_raw_min": 0.16198759651652161, "train/extr_return_raw_std": 98.89977001834225, "train/extr_reward_mag": 145.1725908502356, "train/extr_reward_max": 145.1725908502356, "train/extr_reward_mean": 0.8848893199261133, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.0985408742706495, "train/image_loss_mean": 1.07717474946728, "train/image_loss_std": 0.8949253435258742, "train/model_loss_mean": 3.00885977528312, "train/model_loss_std": 4.233158223040692, "train/model_opt_grad_norm": 11.927385039143749, "train/model_opt_grad_steps": 99675.0, "train/model_opt_loss": 3.00885977528312, "train/policy_entropy_mag": 2.6430600246825775, "train/policy_entropy_max": 2.6430600246825775, "train/policy_entropy_mean": 0.8011862705280255, "train/policy_entropy_min": 0.08019158481196924, "train/policy_entropy_std": 0.6856406300098865, "train/policy_logprob_mag": 7.495536770139422, "train/policy_logprob_max": -0.009489556030648482, "train/policy_logprob_mean": -0.7999932266675033, "train/policy_logprob_min": -7.495536770139422, "train/policy_logprob_std": 1.2372139568452711, "train/policy_randomness_mag": 0.9144360314715992, "train/policy_randomness_max": 0.9144360314715992, "train/policy_randomness_mean": 0.27719143149140596, "train/policy_randomness_min": 0.02774438483326079, "train/policy_randomness_std": 0.23721538329279268, "train/post_ent_mag": 63.18142702672389, "train/post_ent_max": 63.18142702672389, "train/post_ent_mean": 41.78844451904297, "train/post_ent_min": 12.874140169713405, "train/post_ent_std": 5.294266019548688, "train/prior_ent_mag": 84.80607540576489, "train/prior_ent_max": 84.80607540576489, "train/prior_ent_mean": 44.88812929624087, "train/prior_ent_min": 15.868947673153567, "train/prior_ent_std": 7.377777756034554, "train/rep_loss_mean": 3.1100750495861105, "train/rep_loss_std": 6.058798514403306, "train/reward_avg": 1.0412439123376624, "train/reward_loss_mean": 0.06504582207311284, "train/reward_loss_std": 0.2450071896438475, "train/reward_max_data": 135.32467532467533, "train/reward_max_pred": 89.91469080417187, "train/reward_neg_acc": 0.976141579352416, "train/reward_neg_loss": 0.007644581467112792, "train/reward_pos_acc": 0.9943369274789636, "train/reward_pos_loss": 0.6527237191602782, "train/reward_pred": 0.9330086719680142, "train/reward_rate": 0.08896864853896104, "train_stats/mean_log_entropy": 0.6895444989204407, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0003117030719295144, "report/cont_loss_std": 0.004995387513190508, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.056878767907619476, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001454923185519874, "report/cont_pred": 0.997087836265564, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.354447841644287, "report/dyn_loss_std": 6.046488285064697, "report/image_loss_mean": 1.2122641801834106, "report/image_loss_std": 1.0382944345474243, "report/model_loss_mean": 3.282116651535034, "report/model_loss_std": 4.316707134246826, "report/post_ent_mag": 64.0205078125, "report/post_ent_max": 64.0205078125, "report/post_ent_mean": 41.47491455078125, "report/post_ent_min": 11.71335220336914, "report/post_ent_std": 5.648550033569336, "report/prior_ent_mag": 84.69708251953125, "report/prior_ent_max": 84.69708251953125, "report/prior_ent_mean": 45.2152099609375, "report/prior_ent_min": 16.767166137695312, "report/prior_ent_std": 7.81599760055542, "report/rep_loss_mean": 3.354447841644287, "report/rep_loss_std": 6.046488285064697, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.05687202885746956, "report/reward_loss_std": 0.21314547955989838, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.56822967529297, "report/reward_neg_acc": 0.9765458703041077, "report/reward_neg_loss": 0.0038566754665225744, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6351093053817749, "report/reward_pred": 0.7943090796470642, "report/reward_rate": 0.083984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 9.051175584318116e-05, "eval/cont_loss_std": 0.0028946835082024336, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.051175584318116e-05, "eval/cont_pred": 0.9999135732650757, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.608704566955566, "eval/dyn_loss_std": 11.634530067443848, "eval/image_loss_mean": 4.039431095123291, "eval/image_loss_std": 2.6377193927764893, "eval/model_loss_mean": 13.850143432617188, "eval/model_loss_std": 9.263535499572754, "eval/post_ent_mag": 60.461891174316406, "eval/post_ent_max": 60.461891174316406, "eval/post_ent_mean": 42.68578338623047, "eval/post_ent_min": 29.395328521728516, "eval/post_ent_std": 4.249070644378662, "eval/prior_ent_mag": 84.69708251953125, "eval/prior_ent_max": 84.69708251953125, "eval/prior_ent_mean": 47.59165573120117, "eval/prior_ent_min": 31.291744232177734, "eval/prior_ent_std": 5.992480278015137, "eval/rep_loss_mean": 15.608704566955566, "eval/rep_loss_std": 11.634530067443848, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.4454003572463989, "eval/reward_loss_std": 2.389312505722046, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.000630378723145, "eval/reward_neg_acc": 0.931104302406311, "eval/reward_neg_loss": 0.07335363328456879, "eval/reward_pos_acc": 0.18918918073177338, "eval/reward_pos_loss": 10.369997024536133, "eval/reward_pred": 0.20587147772312164, "eval/reward_rate": 0.0361328125, "replay/size": 132979.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.884113245189151e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3293531068926407e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05695629119873, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.0552797317505, "timer/replay._sample_frac": 1.3066028682610158, "timer/replay._sample_avg": 0.015839337416441116, "timer/replay._sample_min": 0.0005369186401367188, "timer/replay._sample_max": 0.06990838050842285, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.651074409484863, "timer/env.step_frac": 0.02216603971357405, "timer/env.step_avg": 0.00429933704556229, "timer/env.step_min": 0.002528667449951172, "timer/env.step_max": 0.026508808135986328, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.81474351882935, "timer/agent.policy_frac": 0.37264506346027043, "timer/agent.policy_avg": 0.07227843795658005, "timer/agent.policy_min": 0.002962350845336914, "timer/agent.policy_max": 0.18094134330749512, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15906643867492676, "timer/dataset_train_frac": 0.0005301208165310997, "timer/dataset_train_avg": 0.00010282252015185957, "timer/dataset_train_min": 5.8650970458984375e-05, "timer/dataset_train_max": 0.0030553340911865234, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.22358226776123, "timer/agent.train_frac": 0.6006312417995008, "timer/agent.train_avg": 0.11649876035407966, "timer/agent.train_min": 0.10304999351501465, "timer/agent.train_max": 0.3047308921813965, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2597026824951172, "timer/agent.report_frac": 0.0008655112872740115, "timer/agent.report_avg": 0.1298513412475586, "timer/agent.report_min": 0.09641385078430176, "timer/agent.report_max": 0.16328883171081543, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.200241088867188e-05, "timer/dataset_eval_frac": 2.399624783862538e-07, "timer/dataset_eval_avg": 7.200241088867188e-05, "timer/dataset_eval_min": 7.200241088867188e-05, "timer/dataset_eval_max": 7.200241088867188e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1583089828491211, "timer/agent.save_frac": 0.000527596443041586, "timer/agent.save_avg": 0.1583089828491211, "timer/agent.save_min": 0.1583089828491211, "timer/agent.save_max": 0.1583089828491211, "fps": 20.62130535199208}
{"step": 408708, "episode/length": 736.0, "episode/score": 730.0, "episode/reward_rate": 0.09769335142469471}
{"step": 410720, "episode/length": 502.0, "episode/score": 650.0, "episode/reward_rate": 0.1272365805168986}
{"step": 412384, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.888010726436493, "train/action_min": 0.0, "train/action_std": 4.382036712092738, "train/actor_opt_grad_norm": 0.0074621035582235744, "train/actor_opt_grad_steps": 101220.0, "train/actor_opt_loss": -4.170177862174422e-05, "train/adv_mag": 0.7399303471849811, "train/adv_max": 0.721811663431506, "train/adv_mean": 0.0016763144834898882, "train/adv_min": -0.3846732542399437, "train/adv_std": 0.03264229613085908, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0005268762147170973, "train/cont_loss_std": 0.013133715873405824, "train/cont_neg_acc": 0.9310776947584367, "train/cont_neg_loss": 0.1593689213290575, "train/cont_pos_acc": 0.9999178924868184, "train/cont_pos_loss": 0.0002544466978980081, "train/cont_pred": 0.9982113645922753, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.9963803398993707, "train/dyn_loss_std": 6.064345845868511, "train/extr_critic_critic_opt_grad_norm": 1.475701537055354, "train/extr_critic_critic_opt_grad_steps": 101220.0, "train/extr_critic_critic_opt_loss": 1.459633449585207, "train/extr_critic_mag": 366.4561365927419, "train/extr_critic_max": 366.4561365927419, "train/extr_critic_mean": 145.93650684971962, "train/extr_critic_min": 0.26657269308643955, "train/extr_critic_std": 97.96787675426852, "train/extr_return_normed_mag": 1.3989169274607012, "train/extr_return_normed_max": 1.3989169274607012, "train/extr_return_normed_mean": 0.4540280640125275, "train/extr_return_normed_min": -0.018940227184324494, "train/extr_return_normed_std": 0.31958249057492905, "train/extr_return_rate": 0.9473921002880219, "train/extr_return_raw_mag": 438.1960504347278, "train/extr_return_raw_max": 438.1960504347278, "train/extr_return_raw_mean": 146.45399622763358, "train/extr_return_raw_min": 0.46960023548735697, "train/extr_return_raw_std": 98.65394789172757, "train/extr_reward_mag": 144.92953110971757, "train/extr_reward_max": 144.92953110971757, "train/extr_reward_mean": 0.8685319546730288, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.099370956420898, "train/image_loss_mean": 1.065492900725334, "train/image_loss_std": 0.8670625079062677, "train/model_loss_mean": 2.9266566245786607, "train/model_loss_std": 4.212722907527801, "train/model_opt_grad_norm": 9.851773637340914, "train/model_opt_grad_steps": 101220.0, "train/model_opt_loss": 2.9266566245786607, "train/policy_entropy_mag": 2.6410017059695337, "train/policy_entropy_max": 2.6410017059695337, "train/policy_entropy_mean": 0.8198663277010764, "train/policy_entropy_min": 0.08019155076434535, "train/policy_entropy_std": 0.6938795489649618, "train/policy_logprob_mag": 7.495538037823093, "train/policy_logprob_max": -0.00948955369812827, "train/policy_logprob_mean": -0.81915463132243, "train/policy_logprob_min": -7.495538037823093, "train/policy_logprob_std": 1.2469659159260411, "train/policy_randomness_mag": 0.9137239010103287, "train/policy_randomness_max": 0.9137239010103287, "train/policy_randomness_mean": 0.2836542881304218, "train/policy_randomness_min": 0.02774437299418834, "train/policy_randomness_std": 0.24006585353805174, "train/post_ent_mag": 63.74767672631048, "train/post_ent_max": 63.74767672631048, "train/post_ent_mean": 41.62859529064548, "train/post_ent_min": 13.01520662923013, "train/post_ent_std": 5.292303386811287, "train/prior_ent_mag": 84.9835678592805, "train/prior_ent_max": 84.9835678592805, "train/prior_ent_mean": 44.677779413038685, "train/prior_ent_min": 15.873075848241006, "train/prior_ent_std": 7.401026002822384, "train/rep_loss_mean": 2.9963803398993707, "train/rep_loss_std": 6.064345845868511, "train/reward_avg": 1.0367943548387097, "train/reward_loss_mean": 0.06280864024114224, "train/reward_loss_std": 0.2393277322092364, "train/reward_max_data": 157.03225806451613, "train/reward_max_pred": 83.66754212533274, "train/reward_neg_acc": 0.9771134207325597, "train/reward_neg_loss": 0.007150559317726161, "train/reward_pos_acc": 0.9935319904358156, "train/reward_pos_loss": 0.6508615528383562, "train/reward_pred": 0.9031753099733784, "train/reward_rate": 0.08672505040322581, "train_stats/mean_log_entropy": 0.7558348476886749, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00012871749640908092, "report/cont_loss_std": 0.003078982001170516, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.011929078958928585, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00010562480747466907, "report/cont_pred": 0.997968852519989, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.164287567138672, "report/dyn_loss_std": 6.26764440536499, "report/image_loss_mean": 1.145806074142456, "report/image_loss_std": 0.9437037110328674, "report/model_loss_mean": 3.129175901412964, "report/model_loss_std": 4.419370651245117, "report/post_ent_mag": 63.883392333984375, "report/post_ent_max": 63.883392333984375, "report/post_ent_mean": 41.11002731323242, "report/post_ent_min": 11.495229721069336, "report/post_ent_std": 5.0090789794921875, "report/prior_ent_mag": 85.15937805175781, "report/prior_ent_max": 85.15937805175781, "report/prior_ent_mean": 44.430503845214844, "report/prior_ent_min": 15.09370231628418, "report/prior_ent_std": 7.2233662605285645, "report/rep_loss_mean": 3.164287567138672, "report/rep_loss_std": 6.26764440536499, "report/reward_avg": 1.513671875, "report/reward_loss_mean": 0.08466838300228119, "report/reward_loss_std": 0.3116026520729065, "report/reward_max_data": 500.0, "report/reward_max_pred": 485.9578552246094, "report/reward_neg_acc": 0.9662309288978577, "report/reward_neg_loss": 0.009356251917779446, "report/reward_pos_acc": 0.990566074848175, "report/reward_pos_loss": 0.7368999123573303, "report/reward_pred": 1.404834508895874, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0031115824822336435, "eval/cont_loss_std": 0.09946548193693161, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.1844522953033447, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.7678015638011857e-06, "eval/cont_pred": 0.999957799911499, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.08310317993164, "eval/dyn_loss_std": 13.222284317016602, "eval/image_loss_mean": 3.6107964515686035, "eval/image_loss_std": 2.5241897106170654, "eval/model_loss_mean": 13.168706893920898, "eval/model_loss_std": 10.013452529907227, "eval/post_ent_mag": 66.75040435791016, "eval/post_ent_max": 66.75040435791016, "eval/post_ent_mean": 42.458560943603516, "eval/post_ent_min": 26.65077018737793, "eval/post_ent_std": 5.028687953948975, "eval/prior_ent_mag": 85.15937805175781, "eval/prior_ent_max": 85.15937805175781, "eval/prior_ent_mean": 46.72496795654297, "eval/prior_ent_min": 28.48450469970703, "eval/prior_ent_std": 6.759260654449463, "eval/rep_loss_mean": 15.08310317993164, "eval/rep_loss_std": 13.222284317016602, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5049366354942322, "eval/reward_loss_std": 2.8598880767822266, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999554634094238, "eval/reward_neg_acc": 0.9514170289039612, "eval/reward_neg_loss": 0.04431687667965889, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 13.146389961242676, "eval/reward_pred": 0.13554975390434265, "eval/reward_rate": 0.03515625, "replay/size": 134527.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.9565805637251195e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3418360890036098e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0952773094177, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 387.9288794994354, "timer/replay._sample_frac": 1.2926857196071617, "timer/replay._sample_avg": 0.015662503209764027, "timer/replay._sample_min": 0.0004639625549316406, "timer/replay._sample_max": 0.04530739784240723, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.710972309112549, "timer/env.step_frac": 0.022362805470587596, "timer/env.step_avg": 0.004335253429659269, "timer/env.step_min": 0.002469778060913086, "timer/env.step_max": 0.034211158752441406, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.26635241508484, "timer/agent.policy_frac": 0.3707700881289178, "timer/agent.policy_avg": 0.07187748864023569, "timer/agent.policy_min": 0.0027534961700439453, "timer/agent.policy_max": 0.08795619010925293, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15427827835083008, "timer/dataset_train_frac": 0.0005140976550316023, "timer/dataset_train_avg": 9.966297051087214e-05, "timer/dataset_train_min": 6.079673767089844e-05, "timer/dataset_train_max": 0.00018286705017089844, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.73420691490173, "timer/agent.train_frac": 0.6022560852517284, "timer/agent.train_avg": 0.1167533636401174, "timer/agent.train_min": 0.10348200798034668, "timer/agent.train_max": 0.20195412635803223, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26545047760009766, "timer/agent.report_frac": 0.0008845539989168206, "timer/agent.report_avg": 0.13272523880004883, "timer/agent.report_min": 0.09825778007507324, "timer/agent.report_max": 0.16719269752502441, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.103515625e-05, "timer/dataset_eval_frac": 2.0338592728691557e-07, "timer/dataset_eval_avg": 6.103515625e-05, "timer/dataset_eval_min": 6.103515625e-05, "timer/dataset_eval_max": 6.103515625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.632135957929318}
{"step": 413252, "episode/length": 632.0, "episode/score": 680.0, "episode/reward_rate": 0.10742496050552923}
{"step": 416328, "episode/length": 768.0, "episode/score": 1150.0, "episode/reward_rate": 0.0858257477243173}
{"step": 418408, "episode/length": 519.0, "episode/score": 650.0, "episode/reward_rate": 0.12307692307692308}
{"step": 418576, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.8855224609375, "train/action_min": 0.0, "train/action_std": 4.390042811055337, "train/actor_opt_grad_norm": 0.00887406055004366, "train/actor_opt_grad_steps": 102770.0, "train/actor_opt_loss": 0.0004070492888610217, "train/adv_mag": 0.7308184477590746, "train/adv_max": 0.7055059205139836, "train/adv_mean": 0.001927466121466545, "train/adv_min": -0.38078046061338916, "train/adv_std": 0.03470353645182425, "train/cont_avg": 0.998273689516129, "train/cont_loss_mean": 0.0005308824857999823, "train/cont_loss_std": 0.013713193784245035, "train/cont_neg_acc": 0.9224806206170902, "train/cont_neg_loss": 0.18454865371089443, "train/cont_pos_acc": 0.9999557921963353, "train/cont_pos_loss": 0.00021693697382843422, "train/cont_pred": 0.9982802514106996, "train/cont_rate": 0.998273689516129, "train/dyn_loss_mean": 3.1679086039143223, "train/dyn_loss_std": 6.058790240749236, "train/extr_critic_critic_opt_grad_norm": 1.5998548403862984, "train/extr_critic_critic_opt_grad_steps": 102770.0, "train/extr_critic_critic_opt_loss": 1.5358976740990915, "train/extr_critic_mag": 366.2150798182334, "train/extr_critic_max": 366.2150798182334, "train/extr_critic_mean": 146.30676052954888, "train/extr_critic_min": 0.0575723817271571, "train/extr_critic_std": 99.43993835449218, "train/extr_return_normed_mag": 1.3922813596264008, "train/extr_return_normed_max": 1.3922813596264008, "train/extr_return_normed_mean": 0.4499672841641211, "train/extr_return_normed_min": -0.022849736476857816, "train/extr_return_normed_std": 0.32184924800549786, "train/extr_return_rate": 0.9478226288672417, "train/extr_return_raw_mag": 439.59941760647683, "train/extr_return_raw_max": 439.59941760647683, "train/extr_return_raw_mean": 146.904760988297, "train/extr_return_raw_min": 0.0406255588029331, "train/extr_return_raw_std": 99.99561408258253, "train/extr_reward_mag": 123.80896546763759, "train/extr_reward_max": 123.80896546763759, "train/extr_reward_mean": 0.8666196411655795, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.8051903678524877, "train/image_loss_mean": 1.0823198726100307, "train/image_loss_std": 0.8838764071464539, "train/model_loss_mean": 3.050082314398981, "train/model_loss_std": 4.225602665255146, "train/model_opt_grad_norm": 10.15815760397142, "train/model_opt_grad_steps": 102770.0, "train/model_opt_loss": 3.050082314398981, "train/policy_entropy_mag": 2.6352049596848026, "train/policy_entropy_max": 2.6352049596848026, "train/policy_entropy_mean": 0.8214990781199547, "train/policy_entropy_min": 0.08019160580250524, "train/policy_entropy_std": 0.6868364572525024, "train/policy_logprob_mag": 7.495537410243865, "train/policy_logprob_max": -0.009489562068014375, "train/policy_logprob_mean": -0.8204406446026218, "train/policy_logprob_min": -7.495537410243865, "train/policy_logprob_std": 1.244719248433267, "train/policy_randomness_mag": 0.9117183677611812, "train/policy_randomness_max": 0.9117183677611812, "train/policy_randomness_mean": 0.2842191797110342, "train/policy_randomness_min": 0.02774439205325419, "train/policy_randomness_std": 0.23762911000559406, "train/post_ent_mag": 62.993801732217115, "train/post_ent_max": 62.993801732217115, "train/post_ent_mean": 41.80359255883001, "train/post_ent_min": 12.13327698861399, "train/post_ent_std": 5.309796871677522, "train/prior_ent_mag": 84.97470422560168, "train/prior_ent_max": 84.97470422560168, "train/prior_ent_mean": 44.897573064988656, "train/prior_ent_min": 15.028146682247039, "train/prior_ent_std": 7.402648655060799, "train/rep_loss_mean": 3.1679086039143223, "train/rep_loss_std": 6.058790240749236, "train/reward_avg": 0.9861391129032258, "train/reward_loss_mean": 0.06648639269894169, "train/reward_loss_std": 0.2557164838237147, "train/reward_max_data": 106.25806451612904, "train/reward_max_pred": 54.496723279645366, "train/reward_neg_acc": 0.9754641502134261, "train/reward_neg_loss": 0.008103715109398528, "train/reward_pos_acc": 0.9924436553832023, "train/reward_pos_loss": 0.6680962354906144, "train/reward_pred": 0.8803992580982947, "train/reward_rate": 0.08891759072580645, "train_stats/mean_log_entropy": 0.7909557620684305, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.053026037174277e-06, "report/cont_loss_std": 5.58709871256724e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.2057167118182406e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.0236966520315036e-06, "report/cont_pred": 0.9990214705467224, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.1026337146759033, "report/dyn_loss_std": 6.039322376251221, "report/image_loss_mean": 1.159236192703247, "report/image_loss_std": 1.0724430084228516, "report/model_loss_mean": 3.0889744758605957, "report/model_loss_std": 4.375807762145996, "report/post_ent_mag": 64.29124450683594, "report/post_ent_max": 64.29124450683594, "report/post_ent_mean": 42.23301696777344, "report/post_ent_min": 9.01359748840332, "report/post_ent_std": 5.7486653327941895, "report/prior_ent_mag": 84.75965118408203, "report/prior_ent_max": 84.75965118408203, "report/prior_ent_mean": 45.515525817871094, "report/prior_ent_min": 9.335275650024414, "report/prior_ent_std": 7.2856059074401855, "report/rep_loss_mean": 3.1026337146759033, "report/rep_loss_std": 6.039322376251221, "report/reward_avg": 1.015625, "report/reward_loss_mean": 0.06815594434738159, "report/reward_loss_std": 0.259047269821167, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.986343383789062, "report/reward_neg_acc": 0.9761388301849365, "report/reward_neg_loss": 0.00626590009778738, "report/reward_pos_acc": 0.9803922176361084, "report/reward_pos_loss": 0.6275933980941772, "report/reward_pred": 0.9873154759407043, "report/reward_rate": 0.099609375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.020050331950187683, "eval/cont_loss_std": 0.3869437277317047, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.8434953689575195, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.0308256150892703e-06, "eval/cont_pred": 0.9999798536300659, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 17.257247924804688, "eval/dyn_loss_std": 15.380922317504883, "eval/image_loss_mean": 4.0299072265625, "eval/image_loss_std": 2.7414631843566895, "eval/model_loss_mean": 14.894224166870117, "eval/model_loss_std": 11.34762954711914, "eval/post_ent_mag": 65.29952239990234, "eval/post_ent_max": 65.29952239990234, "eval/post_ent_mean": 43.112335205078125, "eval/post_ent_min": 26.732791900634766, "eval/post_ent_std": 5.514775276184082, "eval/prior_ent_mag": 84.75965118408203, "eval/prior_ent_max": 84.75965118408203, "eval/prior_ent_mean": 47.9499397277832, "eval/prior_ent_min": 28.593730926513672, "eval/prior_ent_std": 7.436579704284668, "eval/rep_loss_mean": 17.257247924804688, "eval/rep_loss_std": 15.380922317504883, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.4899173080921173, "eval/reward_loss_std": 2.881883382797241, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003567695617676, "eval/reward_neg_acc": 0.9585020542144775, "eval/reward_neg_loss": 0.024836251512169838, "eval/reward_pos_acc": 0.1388888955116272, "eval/reward_pos_loss": 13.253809928894043, "eval/reward_pred": 0.08364999294281006, "eval/reward_rate": 0.03515625, "replay/size": 136075.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.937174400309875e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3548409137922973e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8328428268432617e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10876536369324, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 393.91043162345886, "timer/replay._sample_frac": 1.3125589022569537, "timer/replay._sample_avg": 0.015904006444745593, "timer/replay._sample_min": 0.0004112720489501953, "timer/replay._sample_max": 0.04672574996948242, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.679011583328247, "timer/env.step_frac": 0.022255303257251228, "timer/env.step_avg": 0.00431460696597432, "timer/env.step_min": 0.002190113067626953, "timer/env.step_max": 0.0346524715423584, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.43699264526367, "timer/agent.policy_frac": 0.371322018902768, "timer/agent.policy_avg": 0.07198772134706956, "timer/agent.policy_min": 0.003039836883544922, "timer/agent.policy_max": 0.08573269844055176, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15268611907958984, "timer/dataset_train_frac": 0.0005087692753477357, "timer/dataset_train_avg": 9.863444384986424e-05, "timer/dataset_train_min": 5.793571472167969e-05, "timer/dataset_train_max": 0.0002238750457763672, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.63448071479797, "timer/agent.train_frac": 0.6018967173314389, "timer/agent.train_avg": 0.11668894103023125, "timer/agent.train_min": 0.10218453407287598, "timer/agent.train_max": 0.20526337623596191, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26061558723449707, "timer/agent.report_frac": 0.0008684037832705902, "timer/agent.report_avg": 0.13030779361724854, "timer/agent.report_min": 0.1005549430847168, "timer/agent.report_max": 0.16006064414978027, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.462501525878906e-05, "timer/dataset_eval_frac": 2.4865989891482555e-07, "timer/dataset_eval_avg": 7.462501525878906e-05, "timer/dataset_eval_min": 7.462501525878906e-05, "timer/dataset_eval_max": 7.462501525878906e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.630979462109604}
{"step": 420600, "episode/length": 547.0, "episode/score": 600.0, "episode/reward_rate": 0.10948905109489052}
{"step": 423384, "episode/length": 695.0, "episode/score": 820.0, "episode/reward_rate": 0.11637931034482758}
{"step": 424768, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.949068721648185, "train/action_min": 0.0, "train/action_std": 4.3724724892647036, "train/actor_opt_grad_norm": 0.010059799488273359, "train/actor_opt_grad_steps": 104320.0, "train/actor_opt_loss": 0.0009145763279691216, "train/adv_mag": 0.8461566204986265, "train/adv_max": 0.8150522827140747, "train/adv_mean": 0.002511942644712455, "train/adv_min": -0.41767305395295545, "train/adv_std": 0.03857486584494191, "train/cont_avg": 0.9983807963709678, "train/cont_loss_mean": 0.000586671690072557, "train/cont_loss_std": 0.01480910196172948, "train/cont_neg_acc": 0.9242547440335034, "train/cont_neg_loss": 0.1843407367453223, "train/cont_pos_acc": 0.9999178755667901, "train/cont_pos_loss": 0.00027321327609738987, "train/cont_pred": 0.9983688581374384, "train/cont_rate": 0.9983807963709678, "train/dyn_loss_mean": 3.0152408799817487, "train/dyn_loss_std": 6.051877083316926, "train/extr_critic_critic_opt_grad_norm": 1.545633610602348, "train/extr_critic_critic_opt_grad_steps": 104320.0, "train/extr_critic_critic_opt_loss": 1.5203611220082929, "train/extr_critic_mag": 368.03783805601057, "train/extr_critic_max": 368.03783805601057, "train/extr_critic_mean": 147.16128397295552, "train/extr_critic_min": 0.3193046846697407, "train/extr_critic_std": 97.58676935011341, "train/extr_return_normed_mag": 1.4857396602630615, "train/extr_return_normed_max": 1.4857396602630615, "train/extr_return_normed_mean": 0.453434637477321, "train/extr_return_normed_min": -0.023121787793934347, "train/extr_return_normed_std": 0.31779887166715437, "train/extr_return_rate": 0.9558632046945633, "train/extr_return_raw_mag": 467.4127598916331, "train/extr_return_raw_max": 467.4127598916331, "train/extr_return_raw_mean": 147.93812334614415, "train/extr_return_raw_min": 0.441004490919952, "train/extr_return_raw_std": 98.35589442099294, "train/extr_reward_mag": 158.2726983716411, "train/extr_reward_max": 158.2726983716411, "train/extr_reward_mean": 0.9091230702015661, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.412563221685348, "train/image_loss_mean": 1.0489216716058793, "train/image_loss_std": 0.8556638963760869, "train/model_loss_mean": 2.924511800273772, "train/model_loss_std": 4.193810244529478, "train/model_opt_grad_norm": 10.073006417674403, "train/model_opt_grad_steps": 104320.0, "train/model_opt_loss": 2.924511800273772, "train/policy_entropy_mag": 2.617835101773662, "train/policy_entropy_max": 2.617835101773662, "train/policy_entropy_mean": 0.8195742172579612, "train/policy_entropy_min": 0.08019160162056646, "train/policy_entropy_std": 0.6698085592639061, "train/policy_logprob_mag": 7.495538782304333, "train/policy_logprob_max": -0.009489563606198757, "train/policy_logprob_mean": -0.8190950205249171, "train/policy_logprob_min": -7.495538782304333, "train/policy_logprob_std": 1.236450695222424, "train/policy_randomness_mag": 0.9057088071300138, "train/policy_randomness_max": 0.9057088071300138, "train/policy_randomness_mean": 0.28355322845520514, "train/policy_randomness_min": 0.027744390683308723, "train/policy_randomness_std": 0.23173786074884475, "train/post_ent_mag": 62.98566183274792, "train/post_ent_max": 62.98566183274792, "train/post_ent_mean": 42.00171545705488, "train/post_ent_min": 12.746830488020374, "train/post_ent_std": 5.343239578124016, "train/prior_ent_mag": 85.05414532076928, "train/prior_ent_max": 85.05414532076928, "train/prior_ent_mean": 45.087542232390376, "train/prior_ent_min": 15.799970977537093, "train/prior_ent_std": 7.404965289946525, "train/rep_loss_mean": 3.0152408799817487, "train/rep_loss_std": 6.051877083316926, "train/reward_avg": 1.0272177419354838, "train/reward_loss_mean": 0.06585893018111105, "train/reward_loss_std": 0.24621494229762786, "train/reward_max_data": 122.19354838709677, "train/reward_max_pred": 86.81282720873433, "train/reward_neg_acc": 0.9760290753456854, "train/reward_neg_loss": 0.00786695501001011, "train/reward_pos_acc": 0.9940279926023176, "train/reward_pos_loss": 0.6475448050806599, "train/reward_pred": 0.9416677396143637, "train/reward_rate": 0.09107862903225807, "train_stats/mean_log_entropy": 0.7482647597789764, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 0.0026904314290732145, "report/cont_loss_std": 0.08169928938150406, "report/cont_neg_acc": 0.800000011920929, "report/cont_neg_loss": 0.5309931039810181, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.817154204938561e-05, "report/cont_pred": 0.9959651231765747, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 2.6509437561035156, "report/dyn_loss_std": 6.482914447784424, "report/image_loss_mean": 0.8289417624473572, "report/image_loss_std": 0.7489902973175049, "report/model_loss_mean": 2.491990566253662, "report/model_loss_std": 4.366476058959961, "report/post_ent_mag": 67.0751953125, "report/post_ent_max": 67.0751953125, "report/post_ent_mean": 41.76825714111328, "report/post_ent_min": 13.867437362670898, "report/post_ent_std": 5.771847724914551, "report/prior_ent_mag": 84.95628356933594, "report/prior_ent_max": 84.95628356933594, "report/prior_ent_mean": 44.369720458984375, "report/prior_ent_min": 16.80130386352539, "report/prior_ent_std": 7.844009876251221, "report/rep_loss_mean": 2.6509437561035156, "report/rep_loss_std": 6.482914447784424, "report/reward_avg": 1.1328125, "report/reward_loss_mean": 0.0697920098900795, "report/reward_loss_std": 0.19265371561050415, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.009637832641602, "report/reward_neg_acc": 0.9834801554679871, "report/reward_neg_loss": 0.00804820191115141, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5530969500541687, "report/reward_pred": 1.1236954927444458, "report/reward_rate": 0.11328125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.071885311735969e-07, "eval/cont_loss_std": 1.2319870620558504e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.071885311735969e-07, "eval/cont_pred": 0.9999995231628418, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 22.10912322998047, "eval/dyn_loss_std": 14.947478294372559, "eval/image_loss_mean": 5.471019268035889, "eval/image_loss_std": 3.0890564918518066, "eval/model_loss_mean": 19.293420791625977, "eval/model_loss_std": 11.413664817810059, "eval/post_ent_mag": 55.26556396484375, "eval/post_ent_max": 55.26556396484375, "eval/post_ent_mean": 42.88116455078125, "eval/post_ent_min": 26.538692474365234, "eval/post_ent_std": 4.327413082122803, "eval/prior_ent_mag": 84.95628356933594, "eval/prior_ent_max": 84.95628356933594, "eval/prior_ent_mean": 48.20232009887695, "eval/prior_ent_min": 33.35481262207031, "eval/prior_ent_std": 6.217493534088135, "eval/rep_loss_mean": 22.10912322998047, "eval/rep_loss_std": 14.947478294372559, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5569276809692383, "eval/reward_loss_std": 3.140162944793701, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.9931001663208, "eval/reward_neg_acc": 0.9585020542144775, "eval/reward_neg_loss": 0.041872650384902954, "eval/reward_pos_acc": 0.0833333358168602, "eval/reward_pos_loss": 14.692328453063965, "eval/reward_pred": 0.111392080783844, "eval/reward_rate": 0.03515625, "replay/size": 137623.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.933169953890857e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3320174944185163e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0101251602173, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 380.45277404785156, "timer/replay._sample_frac": 1.2681331133230078, "timer/replay._sample_avg": 0.015360657866919071, "timer/replay._sample_min": 0.0005259513854980469, "timer/replay._sample_max": 0.043617963790893555, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.714668035507202, "timer/env.step_frac": 0.022381471398411314, "timer/env.step_avg": 0.004337640849810854, "timer/env.step_min": 0.0024199485778808594, "timer/env.step_max": 0.02853250503540039, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.21433162689209, "timer/agent.policy_frac": 0.3707019273682821, "timer/agent.policy_avg": 0.07184388347990445, "timer/agent.policy_min": 0.0030295848846435547, "timer/agent.policy_max": 0.08721733093261719, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15208840370178223, "timer/dataset_train_frac": 0.0005069442360339039, "timer/dataset_train_avg": 9.824832280476888e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.0002541542053222656, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.7072470188141, "timer/agent.train_frac": 0.6023371608618517, "timer/agent.train_avg": 0.1167359476865724, "timer/agent.train_min": 0.10385799407958984, "timer/agent.train_max": 0.19982552528381348, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2590165138244629, "timer/agent.report_frac": 0.0008633592405794232, "timer/agent.report_avg": 0.12950825691223145, "timer/agent.report_min": 0.09707188606262207, "timer/agent.report_max": 0.16194462776184082, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.389617919921875e-05, "timer/dataset_eval_frac": 2.1298007580609375e-07, "timer/dataset_eval_avg": 6.389617919921875e-05, "timer/dataset_eval_min": 6.389617919921875e-05, "timer/dataset_eval_max": 6.389617919921875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63800366143095}
{"step": 425508, "episode/length": 530.0, "episode/score": 1190.0, "episode/reward_rate": 0.12994350282485875}
{"step": 427172, "episode/length": 415.0, "episode/score": 970.0, "episode/reward_rate": 0.11538461538461539}
{"step": 429460, "episode/length": 571.0, "episode/score": 720.0, "episode/reward_rate": 0.1258741258741259}
{"step": 430952, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.813480129489651, "train/action_min": 0.0, "train/action_std": 4.35446023321771, "train/actor_opt_grad_norm": 0.008931847603677155, "train/actor_opt_grad_steps": 105865.0, "train/actor_opt_loss": 0.0008106180579272563, "train/adv_mag": 0.7415008003061468, "train/adv_max": 0.7110615601980841, "train/adv_mean": 0.0026445650003185986, "train/adv_min": -0.425565686996107, "train/adv_std": 0.03549284307745757, "train/cont_avg": 0.9982307731331169, "train/cont_loss_mean": 0.0005918817722079971, "train/cont_loss_std": 0.015513618883698814, "train/cont_neg_acc": 0.9326666674613953, "train/cont_neg_loss": 0.23609840231859924, "train/cont_pos_acc": 0.9999554621708857, "train/cont_pos_loss": 0.0001956109109006029, "train/cont_pred": 0.9982525775958966, "train/cont_rate": 0.9982307731331169, "train/dyn_loss_mean": 2.9791277941171224, "train/dyn_loss_std": 6.037470458389877, "train/extr_critic_critic_opt_grad_norm": 1.54558542099866, "train/extr_critic_critic_opt_grad_steps": 105865.0, "train/extr_critic_critic_opt_loss": 1.5157609365203164, "train/extr_critic_mag": 368.3521082494166, "train/extr_critic_max": 368.3521082494166, "train/extr_critic_mean": 149.12617591758828, "train/extr_critic_min": 0.1062513551154694, "train/extr_critic_std": 100.73168222006265, "train/extr_return_normed_mag": 1.3911722526921855, "train/extr_return_normed_max": 1.3911722526921855, "train/extr_return_normed_mean": 0.45828939587264866, "train/extr_return_normed_min": -0.021707169548305986, "train/extr_return_normed_std": 0.3247600242302015, "train/extr_return_rate": 0.9478321632781586, "train/extr_return_raw_mag": 441.38944848791346, "train/extr_return_raw_max": 441.38944848791346, "train/extr_return_raw_mean": 149.95224127831398, "train/extr_return_raw_min": 0.046751008753803884, "train/extr_return_raw_std": 101.43331215598367, "train/extr_reward_mag": 145.10973225011455, "train/extr_reward_max": 145.10973225011455, "train/extr_reward_mean": 0.8961454844707019, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.173025471823556, "train/image_loss_mean": 1.0333409208755988, "train/image_loss_std": 0.8581624600020322, "train/model_loss_mean": 2.885591640100851, "train/model_loss_std": 4.189980003740881, "train/model_opt_grad_norm": 9.413282595671616, "train/model_opt_grad_steps": 105865.0, "train/model_opt_loss": 2.885591640100851, "train/policy_entropy_mag": 2.6135469783436167, "train/policy_entropy_max": 2.6135469783436167, "train/policy_entropy_mean": 0.8311756740916859, "train/policy_entropy_min": 0.08019156294403137, "train/policy_entropy_std": 0.6864763649253102, "train/policy_logprob_mag": 7.495537463720742, "train/policy_logprob_max": -0.009489562174958456, "train/policy_logprob_mean": -0.82990123234786, "train/policy_logprob_min": -7.495537463720742, "train/policy_logprob_std": 1.2399744855893122, "train/policy_randomness_mag": 0.9042252166704698, "train/policy_randomness_max": 0.9042252166704698, "train/policy_randomness_mean": 0.28756705149040596, "train/policy_randomness_min": 0.02774437717706352, "train/policy_randomness_std": 0.2375045267792491, "train/post_ent_mag": 63.53013345792696, "train/post_ent_max": 63.53013345792696, "train/post_ent_mean": 41.62801977875945, "train/post_ent_min": 12.719051735741752, "train/post_ent_std": 5.439271090866684, "train/prior_ent_mag": 85.10727557888279, "train/prior_ent_max": 85.10727557888279, "train/prior_ent_mean": 44.67908834482168, "train/prior_ent_min": 15.367080100170977, "train/prior_ent_std": 7.507078743600226, "train/rep_loss_mean": 2.9791277941171224, "train/rep_loss_std": 6.037470458389877, "train/reward_avg": 1.0385805600649352, "train/reward_loss_mean": 0.06418215444722733, "train/reward_loss_std": 0.23695633841025365, "train/reward_max_data": 135.7792207792208, "train/reward_max_pred": 75.94880633539968, "train/reward_neg_acc": 0.9765488687273743, "train/reward_neg_loss": 0.007402000035606809, "train/reward_pos_acc": 0.9944766852762792, "train/reward_pos_loss": 0.6428146064281464, "train/reward_pred": 0.9315836479911557, "train/reward_rate": 0.0899705762987013, "train_stats/mean_log_entropy": 0.7265600164731344, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.1302230379660614e-05, "report/cont_loss_std": 0.0005162311717867851, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0056779407896101475, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.577276998432353e-05, "report/cont_pred": 0.999013364315033, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.0080652236938477, "report/dyn_loss_std": 5.945568084716797, "report/image_loss_mean": 1.103232502937317, "report/image_loss_std": 0.8643134832382202, "report/model_loss_mean": 2.9689812660217285, "report/model_loss_std": 4.105762481689453, "report/post_ent_mag": 63.45769119262695, "report/post_ent_max": 63.45769119262695, "report/post_ent_mean": 39.88313293457031, "report/post_ent_min": 11.314352035522461, "report/post_ent_std": 5.020848751068115, "report/prior_ent_mag": 85.04812622070312, "report/prior_ent_max": 85.04812622070312, "report/prior_ent_mean": 43.1411247253418, "report/prior_ent_min": 13.593320846557617, "report/prior_ent_std": 7.406780242919922, "report/rep_loss_mean": 3.0080652236938477, "report/rep_loss_std": 5.945568084716797, "report/reward_avg": 0.8984375, "report/reward_loss_mean": 0.06088806688785553, "report/reward_loss_std": 0.20969341695308685, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.009047508239746, "report/reward_neg_acc": 0.975321888923645, "report/reward_neg_loss": 0.009354100562632084, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5829495787620544, "report/reward_pred": 0.8906269669532776, "report/reward_rate": 0.08984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.1994706028417568e-07, "eval/cont_loss_std": 2.628335323606734e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1994706028417568e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 20.072792053222656, "eval/dyn_loss_std": 15.251588821411133, "eval/image_loss_mean": 4.475264072418213, "eval/image_loss_std": 2.736201286315918, "eval/model_loss_mean": 16.87645721435547, "eval/model_loss_std": 11.153936386108398, "eval/post_ent_mag": 57.284942626953125, "eval/post_ent_max": 57.284942626953125, "eval/post_ent_mean": 42.90332794189453, "eval/post_ent_min": 27.242877960205078, "eval/post_ent_std": 4.428134441375732, "eval/prior_ent_mag": 85.04812622070312, "eval/prior_ent_max": 85.04812622070312, "eval/prior_ent_mean": 47.958343505859375, "eval/prior_ent_min": 29.138282775878906, "eval/prior_ent_std": 6.407463550567627, "eval/rep_loss_mean": 20.072792053222656, "eval/rep_loss_std": 15.251588821411133, "eval/reward_avg": 0.2734375, "eval/reward_loss_mean": 0.35751622915267944, "eval/reward_loss_std": 2.276557683944702, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998175621032715, "eval/reward_neg_acc": 0.959839403629303, "eval/reward_neg_loss": 0.04979843646287918, "eval/reward_pos_acc": 0.2142857313156128, "eval/reward_pos_loss": 11.303478240966797, "eval/reward_pred": 0.14513199031352997, "eval/reward_rate": 0.02734375, "replay/size": 139169.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.872467662816214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3690851484202474e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.862645149230957e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14439058303833, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.4597568511963, "timer/replay._sample_frac": 1.3009063940615981, "timer/replay._sample_avg": 0.015785080726519903, "timer/replay._sample_min": 0.0004627704620361328, "timer/replay._sample_max": 0.07099699974060059, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.792195081710815, "timer/env.step_frac": 0.022629758525610954, "timer/env.step_avg": 0.004393399147290308, "timer/env.step_min": 0.0023238658905029297, "timer/env.step_max": 0.028193235397338867, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.13593697547913, "timer/agent.policy_frac": 0.3702749092181755, "timer/agent.policy_avg": 0.07188611706046515, "timer/agent.policy_min": 0.0029478073120117188, "timer/agent.policy_max": 0.14013242721557617, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15519499778747559, "timer/dataset_train_frac": 0.0005170677935576448, "timer/dataset_train_avg": 0.00010038486273446028, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00023508071899414062, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.8641233444214, "timer/agent.train_frac": 0.6025903832255138, "timer/agent.train_avg": 0.11698843683339029, "timer/agent.train_min": 0.10401701927185059, "timer/agent.train_max": 0.2474956512451172, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2594575881958008, "timer/agent.report_frac": 0.0008644425694306584, "timer/agent.report_avg": 0.1297287940979004, "timer/agent.report_min": 0.09643769264221191, "timer/agent.report_max": 0.16301989555358887, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.936622619628906e-05, "timer/dataset_eval_frac": 1.977922228730266e-07, "timer/dataset_eval_avg": 5.936622619628906e-05, "timer/dataset_eval_min": 5.936622619628906e-05, "timer/dataset_eval_max": 5.936622619628906e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10883688926696777, "timer/agent.save_frac": 0.0003626151035358324, "timer/agent.save_avg": 0.10883688926696777, "timer/agent.save_min": 0.10883688926696777, "timer/agent.save_max": 0.10883688926696777, "fps": 20.60210050101342}
{"step": 431084, "episode/length": 405.0, "episode/score": 990.0, "episode/reward_rate": 0.12315270935960591}
{"step": 433052, "episode/length": 491.0, "episode/score": 950.0, "episode/reward_rate": 0.09349593495934959}
{"step": 434644, "episode/length": 397.0, "episode/score": 1010.0, "episode/reward_rate": 0.1306532663316583}
{"step": 436452, "episode/length": 451.0, "episode/score": 1070.0, "episode/reward_rate": 0.12831858407079647}
{"step": 437140, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.778407730594758, "train/action_min": 0.0, "train/action_std": 4.371754815501552, "train/actor_opt_grad_norm": 0.008829341448783393, "train/actor_opt_grad_steps": 107410.0, "train/actor_opt_loss": 0.00029550621476676406, "train/adv_mag": 0.769494296177741, "train/adv_max": 0.7517417071327086, "train/adv_mean": 0.0021103161334248134, "train/adv_min": -0.41641384026696604, "train/adv_std": 0.035511855054045874, "train/cont_avg": 0.9980657762096774, "train/cont_loss_mean": 0.0005497509962033117, "train/cont_loss_std": 0.014960960423714153, "train/cont_neg_acc": 0.927662669474842, "train/cont_neg_loss": 0.2157807233025216, "train/cont_pos_acc": 0.9999620795249939, "train/cont_pos_loss": 0.0001473880139232757, "train/cont_pred": 0.9981291297943361, "train/cont_rate": 0.9980657762096774, "train/dyn_loss_mean": 3.0054404858619934, "train/dyn_loss_std": 6.0633148839396815, "train/extr_critic_critic_opt_grad_norm": 1.508813750743866, "train/extr_critic_critic_opt_grad_steps": 107410.0, "train/extr_critic_critic_opt_loss": 1.4906581563334311, "train/extr_critic_mag": 371.5923396941154, "train/extr_critic_max": 371.5923396941154, "train/extr_critic_mean": 152.99349409534085, "train/extr_critic_min": 0.05213857158537834, "train/extr_critic_std": 103.36234647689326, "train/extr_return_normed_mag": 1.412550797001008, "train/extr_return_normed_max": 1.412550797001008, "train/extr_return_normed_mean": 0.4620793069562604, "train/extr_return_normed_min": -0.021593911272864186, "train/extr_return_normed_std": 0.3279449433088303, "train/extr_return_rate": 0.9428486716362738, "train/extr_return_raw_mag": 455.0183847735005, "train/extr_return_raw_max": 455.0183847735005, "train/extr_return_raw_mean": 153.66204494353263, "train/extr_return_raw_min": 0.15123352457359884, "train/extr_return_raw_std": 104.08947197698778, "train/extr_reward_mag": 160.27914784954442, "train/extr_reward_max": 160.27914784954442, "train/extr_reward_mean": 0.8822867132002308, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.341080569451855, "train/image_loss_mean": 1.0356003607473065, "train/image_loss_std": 0.8554407811933948, "train/model_loss_mean": 2.9029294398523144, "train/model_loss_std": 4.209867343594951, "train/model_opt_grad_norm": 9.993010213298183, "train/model_opt_grad_steps": 107410.0, "train/model_opt_loss": 2.9029294398523144, "train/policy_entropy_mag": 2.6205336816849245, "train/policy_entropy_max": 2.6205336816849245, "train/policy_entropy_mean": 0.8435158875680739, "train/policy_entropy_min": 0.08019175630423331, "train/policy_entropy_std": 0.6909118444688859, "train/policy_logprob_mag": 7.495538207023374, "train/policy_logprob_max": -0.00948957960091291, "train/policy_logprob_mean": -0.8433745614943966, "train/policy_logprob_min": -7.495538207023374, "train/policy_logprob_std": 1.2477948327218333, "train/policy_randomness_mag": 0.9066424492866763, "train/policy_randomness_max": 0.9066424492866763, "train/policy_randomness_mean": 0.29183647459553136, "train/policy_randomness_min": 0.0277444442313525, "train/policy_randomness_std": 0.23903909690918462, "train/post_ent_mag": 63.83545542070942, "train/post_ent_max": 63.83545542070942, "train/post_ent_mean": 41.482224445958295, "train/post_ent_min": 12.983505196725169, "train/post_ent_std": 5.355677450856855, "train/prior_ent_mag": 85.1842767038653, "train/prior_ent_max": 85.1842767038653, "train/prior_ent_mean": 44.51360798497354, "train/prior_ent_min": 15.749421218133742, "train/prior_ent_std": 7.501603997138239, "train/rep_loss_mean": 3.0054404858619934, "train/rep_loss_std": 6.0633148839396815, "train/reward_avg": 1.0553805443548387, "train/reward_loss_mean": 0.06351501701339599, "train/reward_loss_std": 0.23720743040884695, "train/reward_max_data": 154.0, "train/reward_max_pred": 82.64207302831835, "train/reward_neg_acc": 0.9763034928229547, "train/reward_neg_loss": 0.006852999720121583, "train/reward_pos_acc": 0.9955583626224148, "train/reward_pos_loss": 0.6477809413786857, "train/reward_pred": 0.9211202717596485, "train/reward_rate": 0.08891759072580645, "train_stats/mean_log_entropy": 0.653024286031723, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.00012650061398744583, "report/cont_loss_std": 0.0016415691934525967, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0020675023552030325, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.00011888883454957977, "report/cont_pred": 0.995984673500061, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 3.216679573059082, "report/dyn_loss_std": 6.0434489250183105, "report/image_loss_mean": 1.1018342971801758, "report/image_loss_std": 1.059971809387207, "report/model_loss_mean": 3.094778537750244, "report/model_loss_std": 4.29968786239624, "report/post_ent_mag": 67.66268920898438, "report/post_ent_max": 67.66268920898438, "report/post_ent_mean": 41.41692352294922, "report/post_ent_min": 21.522064208984375, "report/post_ent_std": 5.229324817657471, "report/prior_ent_mag": 85.17948913574219, "report/prior_ent_max": 85.17948913574219, "report/prior_ent_mean": 44.575897216796875, "report/prior_ent_min": 23.867630004882812, "report/prior_ent_std": 7.746463298797607, "report/rep_loss_mean": 3.216679573059082, "report/rep_loss_std": 6.0434489250183105, "report/reward_avg": 1.513671875, "report/reward_loss_mean": 0.06280995905399323, "report/reward_loss_std": 0.1953527331352234, "report/reward_max_data": 500.0, "report/reward_max_pred": 451.4073791503906, "report/reward_neg_acc": 0.984749436378479, "report/reward_neg_loss": 0.005032538902014494, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5631842017173767, "report/reward_pred": 1.4594156742095947, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.019009213894605637, "eval/cont_loss_std": 0.41640305519104004, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.268918037414551, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006451362860389054, "eval/cont_pred": 0.9984268546104431, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 4.815122127532959, "eval/dyn_loss_std": 7.6764397621154785, "eval/image_loss_mean": 1.1952170133590698, "eval/image_loss_std": 1.780800223350525, "eval/model_loss_mean": 4.269201278686523, "eval/model_loss_std": 6.045570373535156, "eval/post_ent_mag": 64.42546844482422, "eval/post_ent_max": 64.42546844482422, "eval/post_ent_mean": 40.73478698730469, "eval/post_ent_min": 10.931775093078613, "eval/post_ent_std": 6.186013221740723, "eval/prior_ent_mag": 85.17948913574219, "eval/prior_ent_max": 85.17948913574219, "eval/prior_ent_mean": 44.251182556152344, "eval/prior_ent_min": 13.042776107788086, "eval/prior_ent_std": 8.6533784866333, "eval/rep_loss_mean": 4.815122127532959, "eval/rep_loss_std": 7.6764397621154785, "eval/reward_avg": 1.298828125, "eval/reward_loss_mean": 0.16590160131454468, "eval/reward_loss_std": 0.8449660539627075, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 19.871915817260742, "eval/reward_neg_acc": 0.9641256332397461, "eval/reward_neg_loss": 0.023103874176740646, "eval/reward_pos_acc": 0.9545454382896423, "eval/reward_pos_loss": 1.1308679580688477, "eval/reward_pred": 1.1388373374938965, "eval/reward_rate": 0.12890625, "replay/size": 140716.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.01233836336142e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.34470698597667e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.591179847717285e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05183601379395, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 386.8321409225464, "timer/replay._sample_frac": 1.2892177100518158, "timer/replay._sample_avg": 0.015628318556987167, "timer/replay._sample_min": 0.0004856586456298828, "timer/replay._sample_max": 0.04087710380554199, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.817589044570923, "timer/env.step_frac": 0.02272137086425795, "timer/env.step_avg": 0.004406974172314753, "timer/env.step_min": 0.0022919178009033203, "timer/env.step_max": 0.030580520629882812, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.81888175010681, "timer/agent.policy_frac": 0.36933245675927895, "timer/agent.policy_avg": 0.07163470054951959, "timer/agent.policy_min": 0.002835512161254883, "timer/agent.policy_max": 0.08963394165039062, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1540694236755371, "timer/dataset_train_frac": 0.0005134760237509569, "timer/dataset_train_avg": 9.959238763770983e-05, "timer/dataset_train_min": 6.0558319091796875e-05, "timer/dataset_train_max": 0.00027561187744140625, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.01291680335999, "timer/agent.train_frac": 0.6032721519325697, "timer/agent.train_avg": 0.11700899599441499, "timer/agent.train_min": 0.10402750968933105, "timer/agent.train_max": 0.20317482948303223, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2629122734069824, "timer/agent.report_frac": 0.0008762228450250038, "timer/agent.report_avg": 0.1314561367034912, "timer/agent.report_min": 0.10209345817565918, "timer/agent.report_max": 0.16081881523132324, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.033348083496094e-05, "timer/dataset_eval_frac": 2.344044341449308e-07, "timer/dataset_eval_avg": 7.033348083496094e-05, "timer/dataset_eval_min": 7.033348083496094e-05, "timer/dataset_eval_max": 7.033348083496094e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.621722122293388}
{"step": 438236, "episode/length": 445.0, "episode/score": 1040.0, "episode/reward_rate": 0.12331838565022421}
{"step": 440416, "episode/length": 544.0, "episode/score": 1030.0, "episode/reward_rate": 0.09908256880733946}
{"step": 442184, "episode/length": 441.0, "episode/score": 1040.0, "episode/reward_rate": 0.1244343891402715}
{"step": 443332, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.937347215221774, "train/action_min": 0.0, "train/action_std": 4.37919060337928, "train/actor_opt_grad_norm": 0.00840087122013492, "train/actor_opt_grad_steps": 108960.0, "train/actor_opt_loss": 8.074554423200748e-05, "train/adv_mag": 0.8114534978905031, "train/adv_max": 0.7787695764533935, "train/adv_mean": 0.0017873627287166704, "train/adv_min": -0.4223038384991307, "train/adv_std": 0.03427137471134624, "train/cont_avg": 0.9982988911290323, "train/cont_loss_mean": 0.0006070696066512456, "train/cont_loss_std": 0.014598652890534015, "train/cont_neg_acc": 0.9177002597224805, "train/cont_neg_loss": 0.22011203219571243, "train/cont_pos_acc": 0.9999304856023481, "train/cont_pos_loss": 0.00024319165938152998, "train/cont_pred": 0.9982911913625656, "train/cont_rate": 0.9982988911290323, "train/dyn_loss_mean": 3.0065395047587735, "train/dyn_loss_std": 6.082631289574408, "train/extr_critic_critic_opt_grad_norm": 1.498802327340649, "train/extr_critic_critic_opt_grad_steps": 108960.0, "train/extr_critic_critic_opt_loss": 1.476039969536566, "train/extr_critic_mag": 374.7565959315146, "train/extr_critic_max": 374.7565959315146, "train/extr_critic_mean": 153.49426884805, "train/extr_critic_min": 0.04261377011576006, "train/extr_critic_std": 104.38800890522619, "train/extr_return_normed_mag": 1.424320537428702, "train/extr_return_normed_max": 1.424320537428702, "train/extr_return_normed_mean": 0.4561686506194453, "train/extr_return_normed_min": -0.020249162229799455, "train/extr_return_normed_std": 0.3253219763117452, "train/extr_return_rate": 0.9480704453683668, "train/extr_return_raw_mag": 466.70694776965723, "train/extr_return_raw_max": 466.70694776965723, "train/extr_return_raw_mean": 154.0715334984564, "train/extr_return_raw_min": 0.2811893911944231, "train/extr_return_raw_std": 105.03591914023123, "train/extr_reward_mag": 171.736579415106, "train/extr_reward_max": 171.736579415106, "train/extr_reward_mean": 0.8849404348481086, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.342846593549175, "train/image_loss_mean": 1.0402025457351438, "train/image_loss_std": 0.8550600874808527, "train/model_loss_mean": 2.9065318984370077, "train/model_loss_std": 4.211096445206673, "train/model_opt_grad_norm": 9.607567679497503, "train/model_opt_grad_steps": 108960.0, "train/model_opt_loss": 2.9065318984370077, "train/policy_entropy_mag": 2.6178841421681067, "train/policy_entropy_max": 2.6178841421681067, "train/policy_entropy_mean": 0.8359032100246798, "train/policy_entropy_min": 0.08019170636130918, "train/policy_entropy_std": 0.6890326415338824, "train/policy_logprob_mag": 7.495538053204936, "train/policy_logprob_max": -0.009489565889441198, "train/policy_logprob_mean": -0.836507506908909, "train/policy_logprob_min": -7.495538053204936, "train/policy_logprob_std": 1.2454904317855835, "train/policy_randomness_mag": 0.9057257736882856, "train/policy_randomness_max": 0.9057257736882856, "train/policy_randomness_mean": 0.28920267166629915, "train/policy_randomness_min": 0.027744426902744077, "train/policy_randomness_std": 0.23838893953830964, "train/post_ent_mag": 63.602462719332785, "train/post_ent_max": 63.602462719332785, "train/post_ent_mean": 41.33362404607957, "train/post_ent_min": 12.334166416045159, "train/post_ent_std": 5.325519515622046, "train/prior_ent_mag": 85.10393642302482, "train/prior_ent_max": 85.10393642302482, "train/prior_ent_mean": 44.35358699675529, "train/prior_ent_min": 15.012561527375253, "train/prior_ent_std": 7.46565013393279, "train/rep_loss_mean": 3.0065395047587735, "train/rep_loss_std": 6.082631289574408, "train/reward_avg": 1.0535534274193548, "train/reward_loss_mean": 0.061798597679984184, "train/reward_loss_std": 0.22912751590051958, "train/reward_max_data": 156.32258064516128, "train/reward_max_pred": 90.92518986732729, "train/reward_neg_acc": 0.9783324418529388, "train/reward_neg_loss": 0.00694530182743385, "train/reward_pos_acc": 0.9960452675819397, "train/reward_pos_loss": 0.6298907856787405, "train/reward_pred": 0.9312459868769492, "train/reward_rate": 0.08824344758064516, "train_stats/mean_log_entropy": 0.7140082915623983, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 5.284392955218209e-06, "report/cont_loss_std": 0.00011428285506553948, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00016791862435638905, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.966125743521843e-06, "report/cont_pred": 0.9980422854423523, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.494391918182373, "report/dyn_loss_std": 5.553468704223633, "report/image_loss_mean": 0.841326117515564, "report/image_loss_std": 0.8484265208244324, "report/model_loss_mean": 2.387146472930908, "report/model_loss_std": 3.910742998123169, "report/post_ent_mag": 67.48918151855469, "report/post_ent_max": 67.48918151855469, "report/post_ent_mean": 40.94548034667969, "report/post_ent_min": 11.092578887939453, "report/post_ent_std": 5.428455352783203, "report/prior_ent_mag": 85.36573028564453, "report/prior_ent_max": 85.36573028564453, "report/prior_ent_mean": 43.59347152709961, "report/prior_ent_min": 13.984474182128906, "report/prior_ent_std": 7.501100063323975, "report/rep_loss_mean": 2.494391918182373, "report/rep_loss_std": 5.553468704223633, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.049179915338754654, "report/reward_loss_std": 0.1963413804769516, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.018658638000488, "report/reward_neg_acc": 0.9883102774620056, "report/reward_neg_loss": 0.0019861264154314995, "report/reward_pos_acc": 0.9879518747329712, "report/reward_pos_loss": 0.5842323899269104, "report/reward_pred": 0.7970269918441772, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002179817296564579, "eval/cont_loss_std": 0.045642461627721786, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.9970625638961792, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0012073025573045015, "eval/cont_pred": 0.998841404914856, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 8.339838027954102, "eval/dyn_loss_std": 8.462380409240723, "eval/image_loss_mean": 2.0406887531280518, "eval/image_loss_std": 2.000917673110962, "eval/model_loss_mean": 7.308979034423828, "eval/model_loss_std": 6.692609786987305, "eval/post_ent_mag": 64.8868637084961, "eval/post_ent_max": 64.8868637084961, "eval/post_ent_mean": 43.673179626464844, "eval/post_ent_min": 11.176501274108887, "eval/post_ent_std": 4.793922424316406, "eval/prior_ent_mag": 85.36573028564453, "eval/prior_ent_max": 85.36573028564453, "eval/prior_ent_mean": 48.25595474243164, "eval/prior_ent_min": 13.251546859741211, "eval/prior_ent_std": 6.914416790008545, "eval/rep_loss_mean": 8.339838027954102, "eval/rep_loss_std": 8.462380409240723, "eval/reward_avg": 1.025390625, "eval/reward_loss_mean": 0.26220789551734924, "eval/reward_loss_std": 1.2796857357025146, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 11.327560424804688, "eval/reward_neg_acc": 0.9347116351127625, "eval/reward_neg_loss": 0.06896410882472992, "eval/reward_pos_acc": 0.8380952477455139, "eval/reward_pos_loss": 1.9535512924194336, "eval/reward_pred": 0.7918533086776733, "eval/reward_rate": 0.1025390625, "replay/size": 142264.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.991080409796663e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3000011752126137e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08304595947266, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 379.27977752685547, "timer/replay._sample_frac": 1.2639160480198492, "timer/replay._sample_avg": 0.0153132985112587, "timer/replay._sample_min": 0.0003952980041503906, "timer/replay._sample_max": 0.04362797737121582, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.7767555713653564, "timer/env.step_frac": 0.02258293383319157, "timer/env.step_avg": 0.004377749077109403, "timer/env.step_min": 0.0022771358489990234, "timer/env.step_max": 0.030116558074951172, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.00991082191467, "timer/agent.policy_frac": 0.36993063192549364, "timer/agent.policy_avg": 0.0717118286963273, "timer/agent.policy_min": 0.003070354461669922, "timer/agent.policy_max": 0.08910655975341797, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15852785110473633, "timer/dataset_train_frac": 0.0005282799319697192, "timer/dataset_train_avg": 0.00010240817254827928, "timer/dataset_train_min": 6.127357482910156e-05, "timer/dataset_train_max": 0.00023174285888671875, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.92470908164978, "timer/agent.train_frac": 0.6029154646280295, "timer/agent.train_avg": 0.11687642705532932, "timer/agent.train_min": 0.10373687744140625, "timer/agent.train_max": 0.20378422737121582, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25515127182006836, "timer/agent.report_frac": 0.0008502688680870278, "timer/agent.report_avg": 0.12757563591003418, "timer/agent.report_min": 0.09724640846252441, "timer/agent.report_max": 0.15790486335754395, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.364418029785156e-05, "timer/dataset_eval_frac": 1.787644487756113e-07, "timer/dataset_eval_avg": 5.364418029785156e-05, "timer/dataset_eval_min": 5.364418029785156e-05, "timer/dataset_eval_max": 5.364418029785156e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.632926413380144}
{"step": 444104, "episode/length": 479.0, "episode/score": 1030.0, "episode/reward_rate": 0.1125}
{"step": 446184, "episode/length": 519.0, "episode/score": 1000.0, "episode/reward_rate": 0.09807692307692308}
{"step": 447716, "episode/length": 382.0, "episode/score": 1000.0, "episode/reward_rate": 0.13315926892950392}
{"step": 449520, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.855627047631048, "train/action_min": 0.0, "train/action_std": 4.323877677609843, "train/actor_opt_grad_norm": 0.008545550667951185, "train/actor_opt_grad_steps": 110510.0, "train/actor_opt_loss": 0.00031996665007359443, "train/adv_mag": 0.8039890902657663, "train/adv_max": 0.7748253898274514, "train/adv_mean": 0.0019801074817927832, "train/adv_min": -0.4113365828029571, "train/adv_std": 0.03496499100039082, "train/cont_avg": 0.998305191532258, "train/cont_loss_mean": 0.0006064514561239271, "train/cont_loss_std": 0.014225085128548691, "train/cont_neg_acc": 0.932923498212314, "train/cont_neg_loss": 0.16259018294308739, "train/cont_pos_acc": 0.999867235460589, "train/cont_pos_loss": 0.000344678463467184, "train/cont_pred": 0.9982322585198187, "train/cont_rate": 0.998305191532258, "train/dyn_loss_mean": 3.028007176614577, "train/dyn_loss_std": 6.058867756012948, "train/extr_critic_critic_opt_grad_norm": 1.4919375977208538, "train/extr_critic_critic_opt_grad_steps": 110510.0, "train/extr_critic_critic_opt_loss": 1.4695758165851716, "train/extr_critic_mag": 379.0660388577369, "train/extr_critic_max": 379.0660388577369, "train/extr_critic_mean": 155.67302521736391, "train/extr_critic_min": 0.3966094563084264, "train/extr_critic_std": 105.7857934274981, "train/extr_return_normed_mag": 1.425900678480825, "train/extr_return_normed_max": 1.425900678480825, "train/extr_return_normed_mean": 0.46003433158320767, "train/extr_return_normed_min": -0.01953763693210579, "train/extr_return_normed_std": 0.3277577034888729, "train/extr_return_rate": 0.947597494048457, "train/extr_return_raw_mag": 470.2036225349672, "train/extr_return_raw_max": 470.2036225349672, "train/extr_return_raw_mean": 156.31692805136404, "train/extr_return_raw_min": 0.48702676925383837, "train/extr_return_raw_std": 106.4890370522776, "train/extr_reward_mag": 190.31656486142066, "train/extr_reward_max": 190.31656486142066, "train/extr_reward_mean": 0.8992668082637172, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.6861842816875825, "train/image_loss_mean": 1.025452648439715, "train/image_loss_std": 0.8478858213270865, "train/model_loss_mean": 2.9058665813938265, "train/model_loss_std": 4.190978314799647, "train/model_opt_grad_norm": 9.850961765166252, "train/model_opt_grad_steps": 110510.0, "train/model_opt_loss": 2.9058665813938265, "train/policy_entropy_mag": 2.6270507950936595, "train/policy_entropy_max": 2.6270507950936595, "train/policy_entropy_mean": 0.8145859110739924, "train/policy_entropy_min": 0.08019153754557333, "train/policy_entropy_std": 0.6896301073412742, "train/policy_logprob_mag": 7.495539006879253, "train/policy_logprob_max": -0.009489551420894362, "train/policy_logprob_mean": -0.8144089914137317, "train/policy_logprob_min": -7.495539006879253, "train/policy_logprob_std": 1.2414972605243806, "train/policy_randomness_mag": 0.9088972180120407, "train/policy_randomness_max": 0.9088972180120407, "train/policy_randomness_mean": 0.28182739192439665, "train/policy_randomness_min": 0.02774436852383998, "train/policy_randomness_std": 0.23859564873480027, "train/post_ent_mag": 63.30950162333827, "train/post_ent_max": 63.30950162333827, "train/post_ent_mean": 41.31287302817068, "train/post_ent_min": 12.459166000735376, "train/post_ent_std": 5.342807865142822, "train/prior_ent_mag": 85.18447014593309, "train/prior_ent_max": 85.18447014593309, "train/prior_ent_mean": 44.34272825179561, "train/prior_ent_min": 15.13106443343624, "train/prior_ent_std": 7.4908833103795205, "train/rep_loss_mean": 3.028007176614577, "train/rep_loss_std": 6.058867756012948, "train/reward_avg": 1.1021295362903225, "train/reward_loss_mean": 0.06300316448173215, "train/reward_loss_std": 0.2347031879809595, "train/reward_max_data": 194.6451612903226, "train/reward_max_pred": 102.55054975940335, "train/reward_neg_acc": 0.9780723979396205, "train/reward_neg_loss": 0.0070440535178227775, "train/reward_pos_acc": 0.9948117094655191, "train/reward_pos_loss": 0.6397922708142189, "train/reward_pred": 0.9496763629298056, "train/reward_rate": 0.08862147177419355, "train_stats/mean_log_entropy": 0.6571384072303772, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.311457229595362e-08, "report/cont_loss_std": 5.178257538318576e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.311457229595362e-08, "report/cont_pred": 0.9999999403953552, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.005497932434082, "report/dyn_loss_std": 5.637523174285889, "report/image_loss_mean": 0.9738912582397461, "report/image_loss_std": 0.7449299693107605, "report/model_loss_mean": 2.8731536865234375, "report/model_loss_std": 3.8966922760009766, "report/post_ent_mag": 64.76299285888672, "report/post_ent_max": 64.76299285888672, "report/post_ent_mean": 42.10179138183594, "report/post_ent_min": 11.751214981079102, "report/post_ent_std": 5.574112415313721, "report/prior_ent_mag": 85.01902770996094, "report/prior_ent_max": 85.01902770996094, "report/prior_ent_mean": 45.244232177734375, "report/prior_ent_min": 12.159807205200195, "report/prior_ent_std": 7.254479885101318, "report/rep_loss_mean": 3.005497932434082, "report/rep_loss_std": 5.637523174285889, "report/reward_avg": 1.11328125, "report/reward_loss_mean": 0.09596338868141174, "report/reward_loss_std": 0.3569340705871582, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.941539764404297, "report/reward_neg_acc": 0.9671052694320679, "report/reward_neg_loss": 0.016066676005721092, "report/reward_pos_acc": 0.9821429252624512, "report/reward_pos_loss": 0.746550977230072, "report/reward_pred": 1.0287798643112183, "report/reward_rate": 0.109375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0013218718813732266, "eval/cont_loss_std": 0.04219965264201164, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.3510491847991943, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.490396809662343e-06, "eval/cont_pred": 0.9997446537017822, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 6.602123260498047, "eval/dyn_loss_std": 9.794909477233887, "eval/image_loss_mean": 1.7803815603256226, "eval/image_loss_std": 1.841713309288025, "eval/model_loss_mean": 5.963573455810547, "eval/model_loss_std": 7.307038307189941, "eval/post_ent_mag": 64.46450805664062, "eval/post_ent_max": 64.46450805664062, "eval/post_ent_mean": 42.49119186401367, "eval/post_ent_min": 10.712493896484375, "eval/post_ent_std": 4.9826340675354, "eval/prior_ent_mag": 85.01902770996094, "eval/prior_ent_max": 85.01902770996094, "eval/prior_ent_mean": 46.28966522216797, "eval/prior_ent_min": 12.759923934936523, "eval/prior_ent_std": 6.871284484863281, "eval/rep_loss_mean": 6.602123260498047, "eval/rep_loss_std": 9.794909477233887, "eval/reward_avg": 1.982421875, "eval/reward_loss_mean": 0.22059571743011475, "eval/reward_loss_std": 1.0918664932250977, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 138.1105499267578, "eval/reward_neg_acc": 0.9347116351127625, "eval/reward_neg_loss": 0.05615958943963051, "eval/reward_pos_acc": 0.8666666746139526, "eval/reward_pos_loss": 1.6598032712936401, "eval/reward_pred": 1.0217251777648926, "eval/reward_rate": 0.1025390625, "replay/size": 143811.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.852519315831801e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2880883528173702e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.7418136596679688e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16977977752686, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 368.7548542022705, "timer/replay._sample_frac": 1.2284876061660037, "timer/replay._sample_avg": 0.014897982151029028, "timer/replay._sample_min": 0.0005116462707519531, "timer/replay._sample_max": 0.049335479736328125, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.7577879428863525, "timer/env.step_frac": 0.02251321884533126, "timer/env.step_avg": 0.0043683179979873, "timer/env.step_min": 0.002441883087158203, "timer/env.step_max": 0.03097987174987793, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.18805003166199, "timer/agent.policy_frac": 0.37041720227156066, "timer/agent.policy_avg": 0.07187333550850807, "timer/agent.policy_min": 0.002788066864013672, "timer/agent.policy_max": 0.1819319725036621, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1547679901123047, "timer/dataset_train_frac": 0.0005156015046784929, "timer/dataset_train_avg": 0.00010004394965242708, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.0013997554779052734, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.9071979522705, "timer/agent.train_frac": 0.6026829152699891, "timer/agent.train_avg": 0.11694065801698159, "timer/agent.train_min": 0.10406279563903809, "timer/agent.train_max": 0.2624378204345703, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19953036308288574, "timer/agent.report_frac": 0.0006647250207225032, "timer/agent.report_avg": 0.09976518154144287, "timer/agent.report_min": 0.09849166870117188, "timer/agent.report_max": 0.10103869438171387, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.221366882324219e-05, "timer/dataset_eval_frac": 1.7394712039946442e-07, "timer/dataset_eval_avg": 5.221366882324219e-05, "timer/dataset_eval_min": 5.221366882324219e-05, "timer/dataset_eval_max": 5.221366882324219e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1570448875427246, "timer/agent.save_frac": 0.0005231868699744512, "timer/agent.save_avg": 0.1570448875427246, "timer/agent.save_min": 0.1570448875427246, "timer/agent.save_max": 0.1570448875427246, "fps": 20.61347228116682}
{"step": 449728, "episode/length": 502.0, "episode/score": 970.0, "episode/reward_rate": 0.09542743538767395}
{"step": 451464, "episode/length": 433.0, "episode/score": 1040.0, "episode/reward_rate": 0.12442396313364056}
{"step": 453276, "episode/length": 452.0, "episode/score": 1050.0, "episode/reward_rate": 0.12362030905077263}
{"step": 455492, "episode/length": 553.0, "episode/score": 990.0, "episode/reward_rate": 0.08844765342960288}
{"step": 455720, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.915430081275202, "train/action_min": 0.0, "train/action_std": 4.315697500782628, "train/actor_opt_grad_norm": 0.009365968739673975, "train/actor_opt_grad_steps": 112060.0, "train/actor_opt_loss": 0.0003574418262771008, "train/adv_mag": 0.9499523624297112, "train/adv_max": 0.9118178023445991, "train/adv_mean": 0.0027129511424215207, "train/adv_min": -0.47752721453866653, "train/adv_std": 0.04225529548261435, "train/cont_avg": 0.998305191532258, "train/cont_loss_mean": 0.0004711848557493185, "train/cont_loss_std": 0.012335065949635248, "train/cont_neg_acc": 0.9442307703770124, "train/cont_neg_loss": 0.1449765637441813, "train/cont_pos_acc": 0.9999179105604848, "train/cont_pos_loss": 0.0001966365635413887, "train/cont_pred": 0.9983116407548228, "train/cont_rate": 0.998305191532258, "train/dyn_loss_mean": 3.0042832943700977, "train/dyn_loss_std": 6.059658776560138, "train/extr_critic_critic_opt_grad_norm": 1.5142679552878102, "train/extr_critic_critic_opt_grad_steps": 112060.0, "train/extr_critic_critic_opt_loss": 1.4707945239159368, "train/extr_critic_mag": 380.53032836914065, "train/extr_critic_max": 380.53032836914065, "train/extr_critic_mean": 157.70271463701803, "train/extr_critic_min": 0.1429944392173521, "train/extr_critic_std": 104.8364476357737, "train/extr_return_normed_mag": 1.572217268328513, "train/extr_return_normed_max": 1.572217268328513, "train/extr_return_normed_mean": 0.4642757538826235, "train/extr_return_normed_min": -0.021914104528484805, "train/extr_return_normed_std": 0.32713985645001936, "train/extr_return_rate": 0.9488794161427405, "train/extr_return_raw_mag": 519.2764231035786, "train/extr_return_raw_max": 519.2764231035786, "train/extr_return_raw_mean": 158.58586799867692, "train/extr_return_raw_min": 0.2598006038728448, "train/extr_return_raw_std": 106.52818652737525, "train/extr_reward_mag": 224.80225707023374, "train/extr_reward_max": 224.80225707023374, "train/extr_reward_mean": 0.9530837447412552, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.715261976180538, "train/image_loss_mean": 1.0221515797799634, "train/image_loss_std": 0.8465063818039432, "train/model_loss_mean": 2.887976884841919, "train/model_loss_std": 4.190624973850865, "train/model_opt_grad_norm": 9.804473003264397, "train/model_opt_grad_steps": 112060.0, "train/model_opt_loss": 2.887976884841919, "train/policy_entropy_mag": 2.612435568532636, "train/policy_entropy_max": 2.612435568532636, "train/policy_entropy_mean": 0.8200402873177682, "train/policy_entropy_min": 0.0801916352683498, "train/policy_entropy_std": 0.6877240519369802, "train/policy_logprob_mag": 7.495537850164598, "train/policy_logprob_max": -0.009489554437177796, "train/policy_logprob_mean": -0.8200611452902516, "train/policy_logprob_min": -7.495537850164598, "train/policy_logprob_std": 1.2414504035826652, "train/policy_randomness_mag": 0.9038406948889456, "train/policy_randomness_max": 0.9038406948889456, "train/policy_randomness_mean": 0.28371447420889334, "train/policy_randomness_min": 0.027744402291793976, "train/policy_randomness_std": 0.23793619832684917, "train/post_ent_mag": 63.77374306955645, "train/post_ent_max": 63.77374306955645, "train/post_ent_mean": 41.28343392649005, "train/post_ent_min": 12.543176810972152, "train/post_ent_std": 5.329998988489951, "train/prior_ent_mag": 85.15514423001197, "train/prior_ent_max": 85.15514423001197, "train/prior_ent_mean": 44.30941752772178, "train/prior_ent_min": 15.196580154665055, "train/prior_ent_std": 7.471782665867959, "train/rep_loss_mean": 3.0042832943700977, "train/rep_loss_std": 6.059658776560138, "train/reward_avg": 1.1219128024193548, "train/reward_loss_mean": 0.06278415613116757, "train/reward_loss_std": 0.2317643328059104, "train/reward_max_data": 185.03225806451613, "train/reward_max_pred": 134.08556790505685, "train/reward_neg_acc": 0.9799403036794355, "train/reward_neg_loss": 0.006301517326069335, "train/reward_pos_acc": 0.9951511525338695, "train/reward_pos_loss": 0.6351585507392883, "train/reward_pred": 1.0000540873696726, "train/reward_rate": 0.09029737903225807, "train_stats/mean_log_entropy": 0.6623327881097794, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00019648332090582699, "report/cont_loss_std": 0.004933961667120457, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.15658119320869446, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.3614614696707577e-05, "report/cont_pred": 0.9991216659545898, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.587432861328125, "report/dyn_loss_std": 5.482934951782227, "report/image_loss_mean": 0.7923126220703125, "report/image_loss_std": 0.7227399349212646, "report/model_loss_mean": 2.4096293449401855, "report/model_loss_std": 3.6989548206329346, "report/post_ent_mag": 64.33280944824219, "report/post_ent_max": 64.33280944824219, "report/post_ent_mean": 40.486610412597656, "report/post_ent_min": 10.710773468017578, "report/post_ent_std": 5.6387224197387695, "report/prior_ent_mag": 85.01463317871094, "report/prior_ent_max": 85.01463317871094, "report/prior_ent_mean": 43.062957763671875, "report/prior_ent_min": 11.456653594970703, "report/prior_ent_std": 7.626471996307373, "report/rep_loss_mean": 2.587432861328125, "report/rep_loss_std": 5.482934951782227, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.06466073542833328, "report/reward_loss_std": 0.1803373545408249, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.872671127319336, "report/reward_neg_acc": 0.9824945330619812, "report/reward_neg_loss": 0.0057344501838088036, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5542845726013184, "report/reward_pred": 1.0784616470336914, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.009960120543837547, "eval/cont_loss_std": 0.14861519634723663, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 1.5500215291976929, "eval/cont_pos_acc": 0.9970616698265076, "eval/cont_pos_loss": 0.0054349652491509914, "eval/cont_pred": 0.9966574907302856, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.092365264892578, "eval/dyn_loss_std": 9.113279342651367, "eval/image_loss_mean": 2.3192825317382812, "eval/image_loss_std": 2.5803050994873047, "eval/model_loss_mean": 7.410139560699463, "eval/model_loss_std": 7.6980414390563965, "eval/post_ent_mag": 65.57623291015625, "eval/post_ent_max": 65.57623291015625, "eval/post_ent_mean": 41.56450653076172, "eval/post_ent_min": 10.32730484008789, "eval/post_ent_std": 5.888691425323486, "eval/prior_ent_mag": 85.01463317871094, "eval/prior_ent_max": 85.01463317871094, "eval/prior_ent_mean": 46.0119743347168, "eval/prior_ent_min": 12.450926780700684, "eval/prior_ent_std": 8.411057472229004, "eval/rep_loss_mean": 8.092365264892578, "eval/rep_loss_std": 9.113279342651367, "eval/reward_avg": 1.826171875, "eval/reward_loss_mean": 0.22547800838947296, "eval/reward_loss_std": 1.3858258724212646, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 173.4002685546875, "eval/reward_neg_acc": 0.9647058844566345, "eval/reward_neg_loss": 0.020014654844999313, "eval/reward_pos_acc": 0.8202247023582458, "eval/reward_pos_loss": 2.383997678756714, "eval/reward_pred": 0.87837815284729, "eval/reward_rate": 0.0869140625, "replay/size": 145361.0, "replay/inserts": 1550.0, "replay/samples": 24800.0, "replay/insert_wait_avg": 4.966797367219002e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3402392787318075e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.169331073761, "timer/replay._sample_count": 24800.0, "timer/replay._sample_total": 388.5654571056366, "timer/replay._sample_frac": 1.2944875338052237, "timer/replay._sample_avg": 0.01566796198006599, "timer/replay._sample_min": 0.0004420280456542969, "timer/replay._sample_max": 0.04427599906921387, "timer/env.step_count": 1550.0, "timer/env.step_total": 6.801924705505371, "timer/env.step_frac": 0.02266029204640472, "timer/env.step_avg": 0.004388338519680885, "timer/env.step_min": 0.00252532958984375, "timer/env.step_max": 0.03213381767272949, "timer/agent.policy_count": 1550.0, "timer/agent.policy_total": 111.34582734107971, "timer/agent.policy_frac": 0.37094338366539703, "timer/agent.policy_avg": 0.07183601763940627, "timer/agent.policy_min": 0.002862215042114258, "timer/agent.policy_max": 0.08454251289367676, "timer/dataset_train_count": 1550.0, "timer/dataset_train_total": 0.1571509838104248, "timer/dataset_train_frac": 0.0005235411067755217, "timer/dataset_train_avg": 0.00010138773149059665, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.0002722740173339844, "timer/agent.train_count": 1550.0, "timer/agent.train_total": 180.70636200904846, "timer/agent.train_frac": 0.6020147406886257, "timer/agent.train_avg": 0.11658474968325708, "timer/agent.train_min": 0.10252547264099121, "timer/agent.train_max": 0.2017064094543457, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19563913345336914, "timer/agent.report_frac": 0.0006517625659941071, "timer/agent.report_avg": 0.09781956672668457, "timer/agent.report_min": 0.09729433059692383, "timer/agent.report_max": 0.09834480285644531, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.914138793945312e-05, "timer/dataset_eval_frac": 2.303412800105915e-07, "timer/dataset_eval_avg": 6.914138793945312e-05, "timer/dataset_eval_min": 6.914138793945312e-05, "timer/dataset_eval_max": 6.914138793945312e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.653464409794342}
{"step": 457668, "episode/length": 543.0, "episode/score": 1030.0, "episode/reward_rate": 0.09926470588235294}
{"step": 459948, "episode/length": 569.0, "episode/score": 990.0, "episode/reward_rate": 0.08596491228070176}
{"step": 461628, "episode/length": 419.0, "episode/score": 990.0, "episode/reward_rate": 0.11666666666666667}
{"step": 461916, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.891779119318182, "train/action_min": 0.0, "train/action_std": 4.266901237624032, "train/actor_opt_grad_norm": 0.008660066776074372, "train/actor_opt_grad_steps": 113605.0, "train/actor_opt_loss": 0.0003141651124749771, "train/adv_mag": 0.8496232991675278, "train/adv_max": 0.8159668582987476, "train/adv_mean": 0.0024075946181822817, "train/adv_min": -0.46493515391628465, "train/adv_std": 0.03784748093019445, "train/cont_avg": 0.9982054078733766, "train/cont_loss_mean": 0.0004805852163765258, "train/cont_loss_std": 0.011753689856768758, "train/cont_neg_acc": 0.9583333343712251, "train/cont_neg_loss": 0.11774675913057023, "train/cont_pos_acc": 0.9999046759171919, "train/cont_pos_loss": 0.00022932534917509894, "train/cont_pred": 0.9981723323270872, "train/cont_rate": 0.9982054078733766, "train/dyn_loss_mean": 2.96972073208202, "train/dyn_loss_std": 6.0414573310257556, "train/extr_critic_critic_opt_grad_norm": 1.4725978235145667, "train/extr_critic_critic_opt_grad_steps": 113605.0, "train/extr_critic_critic_opt_loss": 1.4329159917769494, "train/extr_critic_mag": 380.91585075081167, "train/extr_critic_max": 380.91585075081167, "train/extr_critic_mean": 163.62254442487443, "train/extr_critic_min": 0.3622552868607756, "train/extr_critic_std": 106.97609760234883, "train/extr_return_normed_mag": 1.479627759425671, "train/extr_return_normed_max": 1.479627759425671, "train/extr_return_normed_mean": 0.4774226060548386, "train/extr_return_normed_min": -0.020897260504206278, "train/extr_return_normed_std": 0.32829707860946655, "train/extr_return_rate": 0.9471768949713025, "train/extr_return_raw_mag": 494.03656957056614, "train/extr_return_raw_max": 494.03656957056614, "train/extr_return_raw_mean": 164.41397377113242, "train/extr_return_raw_min": 0.5005868074469807, "train/extr_return_raw_std": 107.99167008833452, "train/extr_reward_mag": 200.10942837479826, "train/extr_reward_max": 200.10942837479826, "train/extr_reward_mean": 0.9385584538633173, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.315500682050532, "train/image_loss_mean": 1.0161002262846215, "train/image_loss_std": 0.8470688984765635, "train/model_loss_mean": 2.861366188371336, "train/model_loss_std": 4.1845258257605815, "train/model_opt_grad_norm": 10.293679051585011, "train/model_opt_grad_steps": 113605.0, "train/model_opt_loss": 2.861366188371336, "train/policy_entropy_mag": 2.620234348557212, "train/policy_entropy_max": 2.620234348557212, "train/policy_entropy_mean": 0.8184986447359061, "train/policy_entropy_min": 0.08019154446272107, "train/policy_entropy_std": 0.6906064024993351, "train/policy_logprob_mag": 7.495539442285315, "train/policy_logprob_max": -0.009489552970588594, "train/policy_logprob_mean": -0.8174324654913568, "train/policy_logprob_min": -7.495539442285315, "train/policy_logprob_std": 1.2384581387817086, "train/policy_randomness_mag": 0.9065388893926298, "train/policy_randomness_max": 0.9065388893926298, "train/policy_randomness_mean": 0.28318110272868885, "train/policy_randomness_min": 0.027744370899707466, "train/policy_randomness_std": 0.23893342283251998, "train/post_ent_mag": 64.15192854249632, "train/post_ent_max": 64.15192854249632, "train/post_ent_mean": 41.371351787022185, "train/post_ent_min": 12.826038307957836, "train/post_ent_std": 5.317808538288265, "train/prior_ent_mag": 85.24036362883332, "train/prior_ent_max": 85.24036362883332, "train/prior_ent_mean": 44.3586321000929, "train/prior_ent_min": 15.522524499273919, "train/prior_ent_std": 7.461306438817607, "train/rep_loss_mean": 2.96972073208202, "train/rep_loss_std": 6.0414573310257556, "train/reward_avg": 1.1040229301948052, "train/reward_loss_mean": 0.06295294912120739, "train/reward_loss_std": 0.23123763414559426, "train/reward_max_data": 186.16883116883116, "train/reward_max_pred": 119.1606054491811, "train/reward_neg_acc": 0.9796960051957663, "train/reward_neg_loss": 0.006343550038941253, "train/reward_pos_acc": 0.9960767170051475, "train/reward_pos_loss": 0.6333857252226247, "train/reward_pred": 0.9802574879163272, "train/reward_rate": 0.09064275568181818, "train_stats/mean_log_entropy": 0.6560168862342834, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.090324980803416e-06, "report/cont_loss_std": 8.40544598759152e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.090324980803416e-06, "report/cont_pred": 0.9999969601631165, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.028494358062744, "report/dyn_loss_std": 6.183339595794678, "report/image_loss_mean": 1.2079262733459473, "report/image_loss_std": 0.9194408655166626, "report/model_loss_mean": 3.086824417114258, "report/model_loss_std": 4.286792278289795, "report/post_ent_mag": 59.3482780456543, "report/post_ent_max": 59.3482780456543, "report/post_ent_mean": 41.21292495727539, "report/post_ent_min": 13.020515441894531, "report/post_ent_std": 4.934233665466309, "report/prior_ent_mag": 85.14054870605469, "report/prior_ent_max": 85.14054870605469, "report/prior_ent_mean": 44.178993225097656, "report/prior_ent_min": 17.384347915649414, "report/prior_ent_std": 6.95175838470459, "report/rep_loss_mean": 3.028494358062744, "report/rep_loss_std": 6.183339595794678, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.06179841607809067, "report/reward_loss_std": 0.2192651331424713, "report/reward_max_data": 500.0, "report/reward_max_pred": 86.26386260986328, "report/reward_neg_acc": 0.9762675166130066, "report/reward_neg_loss": 0.0059350929223001, "report/reward_pos_acc": 0.9896907806396484, "report/reward_pos_loss": 0.5956675410270691, "report/reward_pred": 1.008623719215393, "report/reward_rate": 0.0947265625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.0088849573294283e-07, "eval/cont_loss_std": 6.171369932417292e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.0088849573294283e-07, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 8.516401290893555, "eval/dyn_loss_std": 12.326663970947266, "eval/image_loss_mean": 1.9452468156814575, "eval/image_loss_std": 2.338768482208252, "eval/model_loss_mean": 7.433563709259033, "eval/model_loss_std": 9.333379745483398, "eval/post_ent_mag": 61.01083755493164, "eval/post_ent_max": 61.01083755493164, "eval/post_ent_mean": 42.109649658203125, "eval/post_ent_min": 10.666967391967773, "eval/post_ent_std": 5.079868316650391, "eval/prior_ent_mag": 85.14054870605469, "eval/prior_ent_max": 85.14054870605469, "eval/prior_ent_mean": 46.155242919921875, "eval/prior_ent_min": 11.570516586303711, "eval/prior_ent_std": 7.118797779083252, "eval/rep_loss_mean": 8.516401290893555, "eval/rep_loss_std": 12.326663970947266, "eval/reward_avg": 2.36328125, "eval/reward_loss_mean": 0.37847599387168884, "eval/reward_loss_std": 1.7322745323181152, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 500.34844970703125, "eval/reward_neg_acc": 0.9409090876579285, "eval/reward_neg_loss": 0.05189496651291847, "eval/reward_pos_acc": 0.8263888955116272, "eval/reward_pos_loss": 2.37424898147583, "eval/reward_pred": 1.8152263164520264, "eval/reward_rate": 0.140625, "replay/size": 146910.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.843945192321029e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3434998522734472e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05744528770447, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 386.87686800956726, "timer/replay._sample_frac": 1.2893426711629088, "timer/replay._sample_avg": 0.01560994464209035, "timer/replay._sample_min": 0.00048065185546875, "timer/replay._sample_max": 0.053926706314086914, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.749183893203735, "timer/env.step_frac": 0.022492972593072657, "timer/env.step_avg": 0.004357123236412999, "timer/env.step_min": 0.002401590347290039, "timer/env.step_max": 0.029878616333007812, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.30244755744934, "timer/agent.policy_frac": 0.3709371298910083, "timer/agent.policy_avg": 0.07185438835212998, "timer/agent.policy_min": 0.002996206283569336, "timer/agent.policy_max": 0.08685469627380371, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15277361869812012, "timer/dataset_train_frac": 0.000509147901834717, "timer/dataset_train_avg": 9.862725545391874e-05, "timer/dataset_train_min": 5.984306335449219e-05, "timer/dataset_train_max": 0.00024437904357910156, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.64139604568481, "timer/agent.train_frac": 0.6020227089265531, "timer/agent.train_avg": 0.1166180736253614, "timer/agent.train_min": 0.10339474678039551, "timer/agent.train_max": 0.200089693069458, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2583503723144531, "timer/agent.report_frac": 0.000861003039157181, "timer/agent.report_avg": 0.12917518615722656, "timer/agent.report_min": 0.0981147289276123, "timer/agent.report_max": 0.16023564338684082, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.459785461425781e-05, "timer/dataset_eval_frac": 1.8195800661405912e-07, "timer/dataset_eval_avg": 5.459785461425781e-05, "timer/dataset_eval_min": 5.459785461425781e-05, "timer/dataset_eval_max": 5.459785461425781e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.647948682167957}
{"step": 463372, "episode/length": 435.0, "episode/score": 1040.0, "episode/reward_rate": 0.12385321100917432}
{"step": 464940, "episode/length": 391.0, "episode/score": 1010.0, "episode/reward_rate": 0.1326530612244898}
{"step": 466508, "episode/length": 391.0, "episode/score": 990.0, "episode/reward_rate": 0.12755102040816327}
{"step": 468100, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.789456668976815, "train/action_min": 0.0, "train/action_std": 4.180311959789646, "train/actor_opt_grad_norm": 0.009082442637713205, "train/actor_opt_grad_steps": 115150.0, "train/actor_opt_loss": 0.0003518580598320994, "train/adv_mag": 0.8939600839730232, "train/adv_max": 0.8757396542256878, "train/adv_mean": 0.0028449826974763473, "train/adv_min": -0.4612366634030496, "train/adv_std": 0.04062698525526831, "train/cont_avg": 0.9981476814516129, "train/cont_loss_mean": 0.0005771500298264973, "train/cont_loss_std": 0.01353514636981407, "train/cont_neg_acc": 0.9636363641365425, "train/cont_neg_loss": 0.12502364271152613, "train/cont_pos_acc": 0.9998862789523217, "train/cont_pos_loss": 0.00033169315147645533, "train/cont_pred": 0.9980746726835927, "train/cont_rate": 0.9981476814516129, "train/dyn_loss_mean": 2.962599143674297, "train/dyn_loss_std": 5.989515766020744, "train/extr_critic_critic_opt_grad_norm": 1.565593546436679, "train/extr_critic_critic_opt_grad_steps": 115150.0, "train/extr_critic_critic_opt_loss": 1.46905152105516, "train/extr_critic_mag": 388.44125385899696, "train/extr_critic_max": 388.44125385899696, "train/extr_critic_mean": 168.97971880512853, "train/extr_critic_min": 0.01125249401215584, "train/extr_critic_std": 110.58050980106476, "train/extr_return_normed_mag": 1.5304588717799033, "train/extr_return_normed_max": 1.5304588717799033, "train/extr_return_normed_mean": 0.4877624200236413, "train/extr_return_normed_min": -0.019265502727320118, "train/extr_return_normed_std": 0.33405947666014396, "train/extr_return_rate": 0.9491507537903324, "train/extr_return_raw_mag": 519.5981090914819, "train/extr_return_raw_max": 519.5981090914819, "train/extr_return_raw_mean": 169.93387485627204, "train/extr_return_raw_min": 0.009453541289023574, "train/extr_return_raw_std": 111.97606954266948, "train/extr_reward_mag": 224.07855495329827, "train/extr_reward_max": 224.07855495329827, "train/extr_reward_mean": 0.9769012797263361, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.8269982768643285, "train/image_loss_mean": 0.9999607974483121, "train/image_loss_std": 0.8283570420357489, "train/model_loss_mean": 2.8409675105925527, "train/model_loss_std": 4.132927645406415, "train/model_opt_grad_norm": 9.924016183422458, "train/model_opt_grad_steps": 115150.0, "train/model_opt_loss": 2.8409675105925527, "train/policy_entropy_mag": 2.629477414777202, "train/policy_entropy_max": 2.629477414777202, "train/policy_entropy_mean": 0.7921421704753753, "train/policy_entropy_min": 0.0801914781332016, "train/policy_entropy_std": 0.688917456134673, "train/policy_logprob_mag": 7.495539489869149, "train/policy_logprob_max": -0.009489549888718514, "train/policy_logprob_mean": -0.7923764090384207, "train/policy_logprob_min": -7.495539489869149, "train/policy_logprob_std": 1.235202060207244, "train/policy_randomness_mag": 0.9097367701991912, "train/policy_randomness_max": 0.9097367701991912, "train/policy_randomness_mean": 0.2740623890392242, "train/policy_randomness_min": 0.027744347974658013, "train/policy_randomness_std": 0.2383490885457685, "train/post_ent_mag": 63.98740943170363, "train/post_ent_max": 63.98740943170363, "train/post_ent_mean": 41.155541056971394, "train/post_ent_min": 12.237398061444683, "train/post_ent_std": 5.365044169272146, "train/prior_ent_mag": 85.2116936468309, "train/prior_ent_max": 85.2116936468309, "train/prior_ent_mean": 44.156209416543284, "train/prior_ent_min": 15.169029968015609, "train/prior_ent_std": 7.521287364344443, "train/rep_loss_mean": 2.962599143674297, "train/rep_loss_std": 5.989515766020744, "train/reward_avg": 1.1232358870967742, "train/reward_loss_mean": 0.06287008149008597, "train/reward_loss_std": 0.2252540490319652, "train/reward_max_data": 156.58064516129033, "train/reward_max_pred": 114.44728714727586, "train/reward_neg_acc": 0.9805306888395741, "train/reward_neg_loss": 0.006062064469311266, "train/reward_pos_acc": 0.9964522530955653, "train/reward_pos_loss": 0.6227753669984879, "train/reward_pred": 1.0132754764249248, "train/reward_rate": 0.09232610887096775, "train_stats/mean_log_entropy": 0.5549946824709574, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 7.990009180502966e-06, "report/cont_loss_std": 0.00010278827539877966, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0007722191512584686, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.7444776757620275e-06, "report/cont_pred": 0.997066855430603, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.828836441040039, "report/dyn_loss_std": 5.854581356048584, "report/image_loss_mean": 0.8383569717407227, "report/image_loss_std": 0.7804545164108276, "report/model_loss_mean": 2.5909390449523926, "report/model_loss_std": 4.0099592208862305, "report/post_ent_mag": 64.71737670898438, "report/post_ent_max": 64.71737670898438, "report/post_ent_mean": 41.56780242919922, "report/post_ent_min": 12.748476028442383, "report/post_ent_std": 5.021976947784424, "report/prior_ent_mag": 85.30938720703125, "report/prior_ent_max": 85.30938720703125, "report/prior_ent_mean": 44.40755081176758, "report/prior_ent_min": 14.308701515197754, "report/prior_ent_std": 7.435575485229492, "report/rep_loss_mean": 2.828836441040039, "report/rep_loss_std": 5.854581356048584, "report/reward_avg": 0.966796875, "report/reward_loss_mean": 0.05527215078473091, "report/reward_loss_std": 0.16396023333072662, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.992347717285156, "report/reward_neg_acc": 0.9827213287353516, "report/reward_neg_loss": 0.0031859474256634712, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5474336743354797, "report/reward_pred": 0.9523699283599854, "report/reward_rate": 0.095703125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.012418404221534729, "eval/cont_loss_std": 0.27772146463394165, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 3.945474624633789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0008619221625849605, "eval/cont_pred": 0.9982625246047974, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.046354293823242, "eval/dyn_loss_std": 10.639636039733887, "eval/image_loss_mean": 2.2628817558288574, "eval/image_loss_std": 2.2851874828338623, "eval/model_loss_mean": 8.151378631591797, "eval/model_loss_std": 8.756033897399902, "eval/post_ent_mag": 67.98883056640625, "eval/post_ent_max": 67.98883056640625, "eval/post_ent_mean": 42.79277038574219, "eval/post_ent_min": 22.813982009887695, "eval/post_ent_std": 5.194868564605713, "eval/prior_ent_mag": 85.30938720703125, "eval/prior_ent_max": 85.30938720703125, "eval/prior_ent_mean": 47.557865142822266, "eval/prior_ent_min": 26.460205078125, "eval/prior_ent_std": 7.571707725524902, "eval/rep_loss_mean": 9.046354293823242, "eval/rep_loss_std": 10.639636039733887, "eval/reward_avg": 2.91015625, "eval/reward_loss_mean": 0.44826456904411316, "eval/reward_loss_std": 2.1740481853485107, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 490.5577392578125, "eval/reward_neg_acc": 0.9284164905548096, "eval/reward_neg_loss": 0.06363923847675323, "eval/reward_pos_acc": 0.6960784792900085, "eval/reward_pos_loss": 3.924975872039795, "eval/reward_pred": 2.7314553260803223, "eval/reward_rate": 0.099609375, "replay/size": 148456.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 5.066471914116192e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3863091943797597e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09831738471985, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 402.6606845855713, "timer/replay._sample_frac": 1.341762553334708, "timer/replay._sample_avg": 0.016278326511383057, "timer/replay._sample_min": 0.00048470497131347656, "timer/replay._sample_max": 0.05060863494873047, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.767071008682251, "timer/env.step_frac": 0.02254951333168258, "timer/env.step_avg": 0.004377148129807407, "timer/env.step_min": 0.002309560775756836, "timer/env.step_max": 0.029119491577148438, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.5149838924408, "timer/agent.policy_frac": 0.3715948322012112, "timer/agent.policy_avg": 0.07213129617881035, "timer/agent.policy_min": 0.0029006004333496094, "timer/agent.policy_max": 0.29030823707580566, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.16062068939208984, "timer/dataset_train_frac": 0.0005352268909464675, "timer/dataset_train_avg": 0.00010389436571286536, "timer/dataset_train_min": 6.103515625e-05, "timer/dataset_train_max": 0.0004780292510986328, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.44879484176636, "timer/agent.train_frac": 0.601298922347621, "timer/agent.train_avg": 0.11671978967772727, "timer/agent.train_min": 0.10064911842346191, "timer/agent.train_max": 0.20181870460510254, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26787614822387695, "timer/agent.report_frac": 0.0008926279579250865, "timer/agent.report_avg": 0.13393807411193848, "timer/agent.report_min": 0.10471510887145996, "timer/agent.report_max": 0.163161039352417, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.797645568847656e-05, "timer/dataset_eval_frac": 2.9315877694739806e-07, "timer/dataset_eval_avg": 8.797645568847656e-05, "timer/dataset_eval_min": 8.797645568847656e-05, "timer/dataset_eval_max": 8.797645568847656e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09801268577575684, "timer/agent.save_frac": 0.00032660191709807753, "timer/agent.save_avg": 0.09801268577575684, "timer/agent.save_min": 0.09801268577575684, "timer/agent.save_max": 0.09801268577575684, "fps": 20.60531310575918}
{"step": 468100, "episode/length": 397.0, "episode/score": 990.0, "episode/reward_rate": 0.12562814070351758}
{"step": 469756, "episode/length": 413.0, "episode/score": 1040.0, "episode/reward_rate": 0.13285024154589373}
{"step": 471332, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.12944162436548223}
{"step": 473280, "episode/length": 486.0, "episode/score": 1040.0, "episode/reward_rate": 0.11088295687885011}
{"step": 474288, "train_stats/mean_log_entropy": 0.6165118217468262, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.770389286164315, "train/action_min": 0.0, "train/action_std": 4.2081216058423445, "train/actor_opt_grad_norm": 0.009901481390660329, "train/actor_opt_grad_steps": 116700.0, "train/actor_opt_loss": 0.0006625309870830073, "train/adv_mag": 0.9172083587415757, "train/adv_max": 0.8876296232784948, "train/adv_mean": 0.0029775802558575496, "train/adv_min": -0.5216997685932344, "train/adv_std": 0.041418464517881795, "train/cont_avg": 0.998336693548387, "train/cont_loss_mean": 0.0006527646510717134, "train/cont_loss_std": 0.016839030201509512, "train/cont_neg_acc": 0.933994710445404, "train/cont_neg_loss": 0.2210127902628413, "train/cont_pos_acc": 0.999930489063263, "train/cont_pos_loss": 0.00025202746481653204, "train/cont_pred": 0.9983558154875233, "train/cont_rate": 0.998336693548387, "train/dyn_loss_mean": 2.9358006308155673, "train/dyn_loss_std": 6.022521222022272, "train/extr_critic_critic_opt_grad_norm": 1.597360412536129, "train/extr_critic_critic_opt_grad_steps": 116700.0, "train/extr_critic_critic_opt_loss": 1.495277250966718, "train/extr_critic_mag": 391.7539881552419, "train/extr_critic_max": 391.7539881552419, "train/extr_critic_mean": 173.5516349546371, "train/extr_critic_min": 0.39813293026339625, "train/extr_critic_std": 113.50612143239667, "train/extr_return_normed_mag": 1.5117368521228913, "train/extr_return_normed_max": 1.5117368521228913, "train/extr_return_normed_mean": 0.4881461983726871, "train/extr_return_normed_min": -0.019589399209906978, "train/extr_return_normed_std": 0.33451888234384597, "train/extr_return_rate": 0.9436517611626656, "train/extr_return_raw_mag": 526.0575022051411, "train/extr_return_raw_max": 526.0575022051411, "train/extr_return_raw_mean": 174.57440077258696, "train/extr_return_raw_min": 0.3989194319037075, "train/extr_return_raw_std": 114.75788081999748, "train/extr_reward_mag": 228.95533938254079, "train/extr_reward_max": 228.95533938254079, "train/extr_reward_mean": 0.9481244742870331, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.848460843486171, "train/image_loss_mean": 0.9911707858885488, "train/image_loss_std": 0.8121801883943619, "train/model_loss_mean": 2.815982367915492, "train/model_loss_std": 4.150012696173883, "train/model_opt_grad_norm": 10.16408903060421, "train/model_opt_grad_steps": 116700.0, "train/model_opt_loss": 2.815982367915492, "train/policy_entropy_mag": 2.6318068381278747, "train/policy_entropy_max": 2.6318068381278747, "train/policy_entropy_mean": 0.8006324160483576, "train/policy_entropy_min": 0.08019153350783932, "train/policy_entropy_std": 0.6939003209913931, "train/policy_logprob_mag": 7.495539914408038, "train/policy_logprob_max": -0.009489545310216565, "train/policy_logprob_mean": -0.8018162085163978, "train/policy_logprob_min": -7.495539914408038, "train/policy_logprob_std": 1.2396330048961024, "train/policy_randomness_mag": 0.9105426942148517, "train/policy_randomness_max": 0.9105426942148517, "train/policy_randomness_mean": 0.27699981197234125, "train/policy_randomness_min": 0.027744367105826256, "train/policy_randomness_std": 0.24007304185821163, "train/post_ent_mag": 63.41632584602602, "train/post_ent_max": 63.41632584602602, "train/post_ent_mean": 41.17875289916992, "train/post_ent_min": 12.454603527438255, "train/post_ent_std": 5.326364624884821, "train/prior_ent_mag": 85.31745315059538, "train/prior_ent_max": 85.31745315059538, "train/prior_ent_mean": 44.12662040956559, "train/prior_ent_min": 15.525304234412408, "train/prior_ent_std": 7.498512474183113, "train/rep_loss_mean": 2.9358006308155673, "train/rep_loss_std": 6.022521222022272, "train/reward_avg": 1.1528477822580645, "train/reward_loss_mean": 0.06267844501041597, "train/reward_loss_std": 0.23347175726967473, "train/reward_max_data": 203.67741935483872, "train/reward_max_pred": 145.6134915198049, "train/reward_neg_acc": 0.9799191828696958, "train/reward_neg_loss": 0.006297591005662276, "train/reward_pos_acc": 0.9948658324057056, "train/reward_pos_loss": 0.6302340276779667, "train/reward_pred": 1.0249912073535303, "train/reward_rate": 0.09076360887096774, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 0.0012099780142307281, "report/cont_loss_std": 0.03562391176819801, "report/cont_neg_acc": 0.800000011920929, "report/cont_neg_loss": 0.23708827793598175, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.25771283719223e-05, "report/cont_pred": 0.995773196220398, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 2.9737942218780518, "report/dyn_loss_std": 6.309571266174316, "report/image_loss_mean": 1.039650559425354, "report/image_loss_std": 0.908426821231842, "report/model_loss_mean": 2.8656880855560303, "report/model_loss_std": 4.399746417999268, "report/post_ent_mag": 67.4949951171875, "report/post_ent_max": 67.4949951171875, "report/post_ent_mean": 40.600563049316406, "report/post_ent_min": 12.30377197265625, "report/post_ent_std": 5.350386619567871, "report/prior_ent_mag": 85.53841400146484, "report/prior_ent_max": 85.53841400146484, "report/prior_ent_mean": 43.88258743286133, "report/prior_ent_min": 16.906736373901367, "report/prior_ent_std": 7.957067489624023, "report/rep_loss_mean": 2.9737942218780518, "report/rep_loss_std": 6.309571266174316, "report/reward_avg": 2.109375, "report/reward_loss_mean": 0.040551163256168365, "report/reward_loss_std": 0.16149349510669708, "report/reward_max_data": 1000.0, "report/reward_max_pred": 437.035400390625, "report/reward_neg_acc": 0.9864158630371094, "report/reward_neg_loss": 0.0022083758376538754, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5882236361503601, "report/reward_pred": 1.093418836593628, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0061293793842196465, "eval/cont_loss_std": 0.19216443598270416, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.151902675628662, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00012178019824204966, "eval/cont_pred": 0.9998791217803955, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.545018196105957, "eval/dyn_loss_std": 10.27078628540039, "eval/image_loss_mean": 2.963564395904541, "eval/image_loss_std": 2.9571080207824707, "eval/model_loss_mean": 10.238157272338867, "eval/model_loss_std": 8.889284133911133, "eval/post_ent_mag": 61.981529235839844, "eval/post_ent_max": 61.981529235839844, "eval/post_ent_mean": 41.900245666503906, "eval/post_ent_min": 18.26495933532715, "eval/post_ent_std": 4.345605373382568, "eval/prior_ent_mag": 85.53841400146484, "eval/prior_ent_max": 85.53841400146484, "eval/prior_ent_mean": 47.16399383544922, "eval/prior_ent_min": 26.025888442993164, "eval/prior_ent_std": 6.690155506134033, "eval/rep_loss_mean": 11.545018196105957, "eval/rep_loss_std": 10.27078628540039, "eval/reward_avg": 0.908203125, "eval/reward_loss_mean": 0.3414517641067505, "eval/reward_loss_std": 1.9590728282928467, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.013962745666504, "eval/reward_neg_acc": 0.9527390003204346, "eval/reward_neg_loss": 0.05311695486307144, "eval/reward_pos_acc": 0.7634408473968506, "eval/reward_pos_loss": 3.227900743484497, "eval/reward_pred": 0.7402074337005615, "eval/reward_rate": 0.0908203125, "replay/size": 150003.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.943756419146685e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3613323280714216e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1072995662689, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 393.5370283126831, "timer/replay._sample_frac": 1.3113210804317117, "timer/replay._sample_avg": 0.0158992012084956, "timer/replay._sample_min": 0.0006721019744873047, "timer/replay._sample_max": 0.04648709297180176, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.810117244720459, "timer/env.step_frac": 0.022692274578335163, "timer/env.step_avg": 0.004402144308158021, "timer/env.step_min": 0.002397298812866211, "timer/env.step_max": 0.034739017486572266, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.10996007919312, "timer/agent.policy_frac": 0.3702341137312393, "timer/agent.policy_avg": 0.07182285719404856, "timer/agent.policy_min": 0.0028574466705322266, "timer/agent.policy_max": 0.08764910697937012, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.16259312629699707, "timer/dataset_train_frac": 0.0005417833106091898, "timer/dataset_train_avg": 0.00010510221480090308, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00028324127197265625, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.73735737800598, "timer/agent.train_frac": 0.6022424567453616, "timer/agent.train_avg": 0.11683087096186553, "timer/agent.train_min": 0.1008749008178711, "timer/agent.train_max": 0.2023460865020752, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2565948963165283, "timer/agent.report_frac": 0.0008550105135309036, "timer/agent.report_avg": 0.12829744815826416, "timer/agent.report_min": 0.09629416465759277, "timer/agent.report_max": 0.16030073165893555, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.3882598876953125e-05, "timer/dataset_eval_frac": 1.7954444611919515e-07, "timer/dataset_eval_avg": 5.3882598876953125e-05, "timer/dataset_eval_min": 5.3882598876953125e-05, "timer/dataset_eval_max": 5.3882598876953125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.617924494120558}
{"step": 474816, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.13541666666666666}
{"step": 476228, "episode/length": 352.0, "episode/score": 350.0, "episode/reward_rate": 0.09915014164305949}
{"step": 477916, "episode/length": 421.0, "episode/score": 1030.0, "episode/reward_rate": 0.12796208530805686}
{"step": 480404, "episode/length": 621.0, "episode/score": 1000.0, "episode/reward_rate": 0.0819935691318328}
{"step": 480480, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.637942997101815, "train/action_min": 0.0, "train/action_std": 4.222673586876161, "train/actor_opt_grad_norm": 0.009052596547670903, "train/actor_opt_grad_steps": 118250.0, "train/actor_opt_loss": 9.534505671698783e-05, "train/adv_mag": 0.9342455988930117, "train/adv_max": 0.898626601984424, "train/adv_mean": 0.0026972955795269713, "train/adv_min": -0.5256042246856997, "train/adv_std": 0.042171829314001145, "train/cont_avg": 0.9979397681451613, "train/cont_loss_mean": 0.0007117038715604956, "train/cont_loss_std": 0.017481890149464847, "train/cont_neg_acc": 0.9241784051270552, "train/cont_neg_loss": 0.18443419155666543, "train/cont_pos_acc": 0.9998925462845834, "train/cont_pos_loss": 0.00034115996249986605, "train/cont_pred": 0.9978963428928006, "train/cont_rate": 0.9979397681451613, "train/dyn_loss_mean": 2.960293477581393, "train/dyn_loss_std": 6.0482738833273615, "train/extr_critic_critic_opt_grad_norm": 1.517991461676936, "train/extr_critic_critic_opt_grad_steps": 118250.0, "train/extr_critic_critic_opt_loss": 1.4795173168182374, "train/extr_critic_mag": 395.81772598758823, "train/extr_critic_max": 395.81772598758823, "train/extr_critic_mean": 180.99312483264555, "train/extr_critic_min": 0.054289077174279, "train/extr_critic_std": 119.67149131528792, "train/extr_return_normed_mag": 1.5194746690411722, "train/extr_return_normed_max": 1.5194746690411722, "train/extr_return_normed_mean": 0.4964811209709414, "train/extr_return_normed_min": -0.019914797740949, "train/extr_return_normed_std": 0.34308948843709886, "train/extr_return_rate": 0.9443851282519679, "train/extr_return_raw_mag": 542.221257954259, "train/extr_return_raw_max": 542.221257954259, "train/extr_return_raw_mean": 181.9429461079259, "train/extr_return_raw_min": 0.08186586051465823, "train/extr_return_raw_std": 120.83311747889366, "train/extr_reward_mag": 269.95731724769837, "train/extr_reward_max": 269.95731724769837, "train/extr_reward_mean": 0.9830321534987418, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.687969113934424, "train/image_loss_mean": 0.9915136752590057, "train/image_loss_std": 0.8335273588857343, "train/model_loss_mean": 2.830023948607906, "train/model_loss_std": 4.179050716277092, "train/model_opt_grad_norm": 10.132528142006166, "train/model_opt_grad_steps": 118250.0, "train/model_opt_loss": 2.830023948607906, "train/policy_entropy_mag": 2.6243803008910147, "train/policy_entropy_max": 2.6243803008910147, "train/policy_entropy_mean": 0.7785553866817105, "train/policy_entropy_min": 0.08019157840359596, "train/policy_entropy_std": 0.6935926645032822, "train/policy_logprob_mag": 7.495540335870558, "train/policy_logprob_max": -0.009489550663819237, "train/policy_logprob_mean": -0.7790277792561439, "train/policy_logprob_min": -7.495540335870558, "train/policy_logprob_std": 1.233051412336288, "train/policy_randomness_mag": 0.9079732883361078, "train/policy_randomness_max": 0.9079732883361078, "train/policy_randomness_mean": 0.269361680842215, "train/policy_randomness_min": 0.02774438271599431, "train/policy_randomness_std": 0.23996659709561255, "train/post_ent_mag": 64.8266816662204, "train/post_ent_max": 64.8266816662204, "train/post_ent_mean": 40.97730678435295, "train/post_ent_min": 12.289185647041567, "train/post_ent_std": 5.434286520558019, "train/prior_ent_mag": 85.35433984571888, "train/prior_ent_max": 85.35433984571888, "train/prior_ent_mean": 43.970378014349166, "train/prior_ent_min": 15.156771456810736, "train/prior_ent_std": 7.591332927826913, "train/rep_loss_mean": 2.960293477581393, "train/rep_loss_std": 6.0482738833273615, "train/reward_avg": 1.1587071572580645, "train/reward_loss_mean": 0.061622475231847454, "train/reward_loss_std": 0.22778417987208213, "train/reward_max_data": 222.58064516129033, "train/reward_max_pred": 156.90062463821903, "train/reward_neg_acc": 0.9813021621396465, "train/reward_neg_loss": 0.005742446722973499, "train/reward_pos_acc": 0.9954558295588339, "train/reward_pos_loss": 0.6294420084645671, "train/reward_pred": 1.0334731086607902, "train/reward_rate": 0.09003276209677419, "train_stats/mean_log_entropy": 0.5574047490954399, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00017040420789271593, "report/cont_loss_std": 0.0037593701854348183, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.005583218764513731, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001544997503515333, "report/cont_pred": 0.9969391822814941, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.8943593502044678, "report/dyn_loss_std": 5.885982990264893, "report/image_loss_mean": 1.0018532276153564, "report/image_loss_std": 0.8421162366867065, "report/model_loss_mean": 2.795267105102539, "report/model_loss_std": 4.075945854187012, "report/post_ent_mag": 62.418304443359375, "report/post_ent_max": 62.418304443359375, "report/post_ent_mean": 40.75157928466797, "report/post_ent_min": 15.011302947998047, "report/post_ent_std": 5.034144878387451, "report/prior_ent_mag": 84.89031982421875, "report/prior_ent_max": 84.89031982421875, "report/prior_ent_mean": 43.88902282714844, "report/prior_ent_min": 16.129623413085938, "report/prior_ent_std": 7.5652008056640625, "report/rep_loss_mean": 2.8943593502044678, "report/rep_loss_std": 5.885982990264893, "report/reward_avg": 1.38671875, "report/reward_loss_mean": 0.056627657264471054, "report/reward_loss_std": 0.20039984583854675, "report/reward_max_data": 500.0, "report/reward_max_pred": 493.5869445800781, "report/reward_neg_acc": 0.9785637259483337, "report/reward_neg_loss": 0.0037641278468072414, "report/reward_pos_acc": 0.9890109896659851, "report/reward_pos_loss": 0.598624050617218, "report/reward_pred": 1.3502095937728882, "report/reward_rate": 0.0888671875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.011203201487660408, "eval/cont_loss_std": 0.26217901706695557, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 3.790290355682373, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.912557288771495e-05, "eval/cont_pred": 0.9989142417907715, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.764432907104492, "eval/dyn_loss_std": 10.001213073730469, "eval/image_loss_mean": 2.6240367889404297, "eval/image_loss_std": 2.694629192352295, "eval/model_loss_mean": 8.754585266113281, "eval/model_loss_std": 8.392265319824219, "eval/post_ent_mag": 66.9154281616211, "eval/post_ent_max": 66.9154281616211, "eval/post_ent_mean": 42.089839935302734, "eval/post_ent_min": 15.80984878540039, "eval/post_ent_std": 5.549526691436768, "eval/prior_ent_mag": 84.89031982421875, "eval/prior_ent_max": 84.89031982421875, "eval/prior_ent_mean": 46.70237731933594, "eval/prior_ent_min": 17.997295379638672, "eval/prior_ent_std": 7.811718463897705, "eval/rep_loss_mean": 9.764432907104492, "eval/rep_loss_std": 10.001213073730469, "eval/reward_avg": 1.552734375, "eval/reward_loss_mean": 0.26068562269210815, "eval/reward_loss_std": 1.2868374586105347, "eval/reward_max_data": 510.0, "eval/reward_max_pred": 10.01354694366455, "eval/reward_neg_acc": 0.9333333969116211, "eval/reward_neg_loss": 0.05420849844813347, "eval/reward_pos_acc": 0.8256880640983582, "eval/reward_pos_loss": 1.9939569234848022, "eval/reward_pred": 0.9048530459403992, "eval/reward_rate": 0.1064453125, "replay/size": 151551.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.901442416878634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3859523821246716e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1223795413971, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 403.7614233493805, "timer/replay._sample_frac": 1.3453226112839347, "timer/replay._sample_avg": 0.01630173705383481, "timer/replay._sample_min": 0.0006825923919677734, "timer/replay._sample_max": 0.04072165489196777, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.752707481384277, "timer/env.step_frac": 0.022499846534946084, "timer/env.step_avg": 0.004362214135261161, "timer/env.step_min": 0.002231597900390625, "timer/env.step_max": 0.030078887939453125, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.48057055473328, "timer/agent.policy_frac": 0.37145037542712245, "timer/agent.policy_avg": 0.07201587245137808, "timer/agent.policy_min": 0.0029401779174804688, "timer/agent.policy_max": 0.08854842185974121, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.16145849227905273, "timer/dataset_train_frac": 0.0005379755169400225, "timer/dataset_train_avg": 0.00010430135160145526, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.000301361083984375, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.56260895729065, "timer/agent.train_frac": 0.6016299392041337, "timer/agent.train_avg": 0.1166425122463118, "timer/agent.train_min": 0.10282778739929199, "timer/agent.train_max": 0.20204591751098633, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19808721542358398, "timer/agent.report_frac": 0.0006600214743274786, "timer/agent.report_avg": 0.09904360771179199, "timer/agent.report_min": 0.0970919132232666, "timer/agent.report_max": 0.10099530220031738, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.790855407714844e-05, "timer/dataset_eval_frac": 1.263103209266657e-07, "timer/dataset_eval_avg": 3.790855407714844e-05, "timer/dataset_eval_min": 3.790855407714844e-05, "timer/dataset_eval_max": 3.790855407714844e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63013673200093}
{"step": 482108, "episode/length": 425.0, "episode/score": 1040.0, "episode/reward_rate": 0.1267605633802817}
{"step": 484212, "episode/length": 525.0, "episode/score": 1000.0, "episode/reward_rate": 0.09695817490494296}
{"step": 486348, "episode/length": 533.0, "episode/score": 1010.0, "episode/reward_rate": 0.09737827715355805}
{"step": 486668, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.684311111252029, "train/action_min": 0.0, "train/action_std": 4.283125222503365, "train/actor_opt_grad_norm": 0.00879848138247798, "train/actor_opt_grad_steps": 119795.0, "train/actor_opt_loss": 0.0003145223550161193, "train/adv_mag": 0.8935487024582826, "train/adv_max": 0.8699035307803711, "train/adv_mean": 0.002609402198621475, "train/adv_min": -0.5259338088043324, "train/adv_std": 0.04056472188563316, "train/cont_avg": 0.9983575994318182, "train/cont_loss_mean": 0.0006964324818151895, "train/cont_loss_std": 0.018957987992501698, "train/cont_neg_acc": 0.9096354176290333, "train/cont_neg_loss": 0.3048142792702743, "train/cont_pos_acc": 0.9999237505646495, "train/cont_pos_loss": 0.00024324744392252844, "train/cont_pred": 0.9983737414533441, "train/cont_rate": 0.9983575994318182, "train/dyn_loss_mean": 2.9380623164115014, "train/dyn_loss_std": 5.995185170854841, "train/extr_critic_critic_opt_grad_norm": 1.5277143229137768, "train/extr_critic_critic_opt_grad_steps": 119795.0, "train/extr_critic_critic_opt_loss": 1.4681885103126624, "train/extr_critic_mag": 418.0571445613713, "train/extr_critic_max": 418.0571445613713, "train/extr_critic_mean": 184.50864930586383, "train/extr_critic_min": 0.5477858472180057, "train/extr_critic_std": 120.11363834529728, "train/extr_return_normed_mag": 1.481473226438869, "train/extr_return_normed_max": 1.481473226438869, "train/extr_return_normed_mean": 0.4964985516551253, "train/extr_return_normed_min": -0.01641824355881129, "train/extr_return_normed_std": 0.336843865742157, "train/extr_return_rate": 0.9485893156621363, "train/extr_return_raw_mag": 540.1487599162313, "train/extr_return_raw_max": 540.1487599162313, "train/extr_return_raw_mean": 185.44877490749607, "train/extr_return_raw_min": 0.6900639503143687, "train/extr_return_raw_std": 121.31229564121791, "train/extr_reward_mag": 251.12063443815552, "train/extr_reward_max": 251.12063443815552, "train/extr_reward_mean": 0.9764562282082322, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.27506919727697, "train/image_loss_mean": 0.9886843891112835, "train/image_loss_std": 0.8321258805014871, "train/model_loss_mean": 2.8154278544636515, "train/model_loss_std": 4.142941056907951, "train/model_opt_grad_norm": 9.88299890926906, "train/model_opt_grad_steps": 119795.0, "train/model_opt_loss": 2.8154278544636515, "train/policy_entropy_mag": 2.634996596868936, "train/policy_entropy_max": 2.634996596868936, "train/policy_entropy_mean": 0.7747015972416122, "train/policy_entropy_min": 0.08019145999055405, "train/policy_entropy_std": 0.6890365965180583, "train/policy_logprob_mag": 7.495540779906434, "train/policy_logprob_max": -0.009489546070334974, "train/policy_logprob_mean": -0.7746719102580826, "train/policy_logprob_min": -7.495540779906434, "train/policy_logprob_std": 1.2287260595854226, "train/policy_randomness_mag": 0.9116462755512882, "train/policy_randomness_max": 0.9116462755512882, "train/policy_randomness_mean": 0.2680283629081466, "train/policy_randomness_min": 0.027744341726330193, "train/policy_randomness_std": 0.23839030579313056, "train/post_ent_mag": 63.65826279776437, "train/post_ent_max": 63.65826279776437, "train/post_ent_mean": 41.112069712056744, "train/post_ent_min": 12.258333794482343, "train/post_ent_std": 5.390705777453138, "train/prior_ent_mag": 85.37601163789823, "train/prior_ent_max": 85.37601163789823, "train/prior_ent_mean": 44.07369821721857, "train/prior_ent_min": 15.083612281006651, "train/prior_ent_std": 7.527534045182265, "train/rep_loss_mean": 2.9380623164115014, "train/rep_loss_std": 5.995185170854841, "train/reward_avg": 1.1424512987012987, "train/reward_loss_mean": 0.06320963006515007, "train/reward_loss_std": 0.23001497964580336, "train/reward_max_data": 191.42857142857142, "train/reward_max_pred": 146.5956052185653, "train/reward_neg_acc": 0.981098253231544, "train/reward_neg_loss": 0.00602054681595681, "train/reward_pos_acc": 0.995073987679048, "train/reward_pos_loss": 0.6238719457155698, "train/reward_pred": 1.041651013996694, "train/reward_rate": 0.0927544135551948, "train_stats/mean_log_entropy": 0.5128140946229299, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0001827236992539838, "report/cont_loss_std": 0.002495845314115286, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.017152640968561172, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00013286105240695179, "report/cont_pred": 0.9969888925552368, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.946363925933838, "report/dyn_loss_std": 5.981154918670654, "report/image_loss_mean": 0.909899115562439, "report/image_loss_std": 0.8549373745918274, "report/model_loss_mean": 2.751786231994629, "report/model_loss_std": 4.212080478668213, "report/post_ent_mag": 64.1407241821289, "report/post_ent_max": 64.1407241821289, "report/post_ent_mean": 41.390708923339844, "report/post_ent_min": 23.357709884643555, "report/post_ent_std": 5.5630693435668945, "report/prior_ent_mag": 85.56208801269531, "report/prior_ent_max": 85.56208801269531, "report/prior_ent_mean": 44.28049850463867, "report/prior_ent_min": 25.049089431762695, "report/prior_ent_std": 7.718149662017822, "report/rep_loss_mean": 2.946363925933838, "report/rep_loss_std": 5.981154918670654, "report/reward_avg": 1.162109375, "report/reward_loss_mean": 0.07388626039028168, "report/reward_loss_std": 0.22478976845741272, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.97835350036621, "report/reward_neg_acc": 0.9845645427703857, "report/reward_neg_loss": 0.004804934840649366, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6094142198562622, "report/reward_pred": 1.1086372137069702, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012821046635508537, "eval/cont_loss_std": 0.39686983823776245, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.548085689544678, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.187921902281232e-05, "eval/cont_pred": 0.9993113279342651, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.6326265335083, "eval/dyn_loss_std": 10.675060272216797, "eval/image_loss_mean": 2.1632168292999268, "eval/image_loss_std": 2.154505491256714, "eval/model_loss_mean": 8.20495891571045, "eval/model_loss_std": 8.233166694641113, "eval/post_ent_mag": 65.66504669189453, "eval/post_ent_max": 65.66504669189453, "eval/post_ent_mean": 42.034263610839844, "eval/post_ent_min": 16.556047439575195, "eval/post_ent_std": 5.348145008087158, "eval/prior_ent_mag": 85.56208801269531, "eval/prior_ent_max": 85.56208801269531, "eval/prior_ent_mean": 46.61567687988281, "eval/prior_ent_min": 17.625568389892578, "eval/prior_ent_std": 7.682160377502441, "eval/rep_loss_mean": 9.6326265335083, "eval/rep_loss_std": 10.675060272216797, "eval/reward_avg": 2.6953125, "eval/reward_loss_mean": 0.24934500455856323, "eval/reward_loss_std": 1.4892361164093018, "eval/reward_max_data": 1000.0, "eval/reward_max_pred": 43.894405364990234, "eval/reward_neg_acc": 0.9671958088874817, "eval/reward_neg_loss": 0.033728986978530884, "eval/reward_pos_acc": 0.7721519470214844, "eval/reward_pos_loss": 2.82854962348938, "eval/reward_pred": 0.6273455619812012, "eval/reward_rate": 0.0771484375, "replay/size": 153098.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.9730385975754486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.364000473934832e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.12872767448425, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 398.65873885154724, "timer/replay._sample_frac": 1.3282925028220802, "timer/replay._sample_avg": 0.016106122287150422, "timer/replay._sample_min": 0.00048661231994628906, "timer/replay._sample_max": 0.22981858253479004, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.826211214065552, "timer/env.step_frac": 0.02274427798684161, "timer/env.step_avg": 0.004412547649686847, "timer/env.step_min": 0.0023255348205566406, "timer/env.step_max": 0.045125722885131836, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.37583255767822, "timer/agent.policy_frac": 0.37109354183007437, "timer/agent.policy_avg": 0.07199472046391611, "timer/agent.policy_min": 0.00305938720703125, "timer/agent.policy_max": 0.14460444450378418, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1569828987121582, "timer/dataset_train_frac": 0.0005230518915284239, "timer/dataset_train_avg": 0.00010147569406086503, "timer/dataset_train_min": 6.29425048828125e-05, "timer/dataset_train_max": 0.00027823448181152344, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.53775453567505, "timer/agent.train_frac": 0.6015344013702146, "timer/agent.train_avg": 0.11670184520728834, "timer/agent.train_min": 0.10244417190551758, "timer/agent.train_max": 0.20146989822387695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2592639923095703, "timer/agent.report_frac": 0.000863842639518216, "timer/agent.report_avg": 0.12963199615478516, "timer/agent.report_min": 0.09870600700378418, "timer/agent.report_max": 0.16055798530578613, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.4784897219291267e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09094095230102539, "timer/agent.save_frac": 0.0003030064899340751, "timer/agent.save_avg": 0.09094095230102539, "timer/agent.save_min": 0.09094095230102539, "timer/agent.save_max": 0.09094095230102539, "fps": 20.61649926821042}
{"step": 487884, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.13541666666666666}
{"step": 489476, "episode/length": 397.0, "episode/score": 1010.0, "episode/reward_rate": 0.12814070351758794}
{"step": 491060, "episode/length": 395.0, "episode/score": 980.0, "episode/reward_rate": 0.12373737373737374}
{"step": 492864, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.51225822202621, "train/action_min": 0.0, "train/action_std": 4.26674736238295, "train/actor_opt_grad_norm": 0.008314907926345063, "train/actor_opt_grad_steps": 121340.0, "train/actor_opt_loss": -0.0001234717503423106, "train/adv_mag": 0.8430058248581425, "train/adv_max": 0.806234268892196, "train/adv_mean": 0.002086018116836297, "train/adv_min": -0.4760538432867296, "train/adv_std": 0.038759553414439, "train/cont_avg": 0.9980594758064516, "train/cont_loss_mean": 0.000607714471133976, "train/cont_loss_std": 0.014351467403159566, "train/cont_neg_acc": 0.9454106286815975, "train/cont_neg_loss": 0.14624527259059214, "train/cont_pos_acc": 0.9999052347675447, "train/cont_pos_loss": 0.0003056933798566706, "train/cont_pred": 0.9980168227226504, "train/cont_rate": 0.9980594758064516, "train/dyn_loss_mean": 2.920506435824979, "train/dyn_loss_std": 6.037536913348783, "train/extr_critic_critic_opt_grad_norm": 1.4882790411672284, "train/extr_critic_critic_opt_grad_steps": 121340.0, "train/extr_critic_critic_opt_loss": 1.4567547836611348, "train/extr_critic_mag": 421.33545748802925, "train/extr_critic_max": 421.33545748802925, "train/extr_critic_mean": 189.0769016388924, "train/extr_critic_min": 0.014505284063277706, "train/extr_critic_std": 123.69575352822581, "train/extr_return_normed_mag": 1.416524987836038, "train/extr_return_normed_max": 1.416524987836038, "train/extr_return_normed_mean": 0.5008204552435106, "train/extr_return_normed_min": -0.01841364102738519, "train/extr_return_normed_std": 0.3413238029326162, "train/extr_return_rate": 0.9460887605144132, "train/extr_return_raw_mag": 524.2922233335433, "train/extr_return_raw_max": 524.2922233335433, "train/extr_return_raw_mean": 189.83821475121283, "train/extr_return_raw_min": 0.12512722274282903, "train/extr_return_raw_std": 124.70263671875, "train/extr_reward_mag": 230.08698167493267, "train/extr_reward_max": 230.08698167493267, "train/extr_reward_mean": 0.9689268506342364, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.068494084573561, "train/image_loss_mean": 0.9787217274788887, "train/image_loss_std": 0.8344516784914078, "train/model_loss_mean": 2.7946374570169756, "train/model_loss_std": 4.172977832055861, "train/model_opt_grad_norm": 9.766130819628316, "train/model_opt_grad_steps": 121340.0, "train/model_opt_loss": 2.7946374570169756, "train/policy_entropy_mag": 2.6347982145124864, "train/policy_entropy_max": 2.6347982145124864, "train/policy_entropy_mean": 0.7602574948341616, "train/policy_entropy_min": 0.08019129898278944, "train/policy_entropy_std": 0.6881519921364323, "train/policy_logprob_mag": 7.4955406065910095, "train/policy_logprob_max": -0.009489546854409479, "train/policy_logprob_mean": -0.761482415276189, "train/policy_logprob_min": -7.4955406065910095, "train/policy_logprob_std": 1.2271882418663271, "train/policy_randomness_mag": 0.9115776408103204, "train/policy_randomness_max": 0.9115776408103204, "train/policy_randomness_mean": 0.2630310477748994, "train/policy_randomness_min": 0.027744285906514815, "train/policy_randomness_std": 0.23808425501469643, "train/post_ent_mag": 64.26780009115896, "train/post_ent_max": 64.26780009115896, "train/post_ent_mean": 40.858990946123676, "train/post_ent_min": 11.94937063032581, "train/post_ent_std": 5.433817343558035, "train/prior_ent_mag": 85.26123952557964, "train/prior_ent_max": 85.26123952557964, "train/prior_ent_mean": 43.817803733579574, "train/prior_ent_min": 14.692461936704573, "train/prior_ent_std": 7.61133943680794, "train/rep_loss_mean": 2.920506435824979, "train/rep_loss_std": 6.037536913348783, "train/reward_avg": 1.174710181451613, "train/reward_loss_mean": 0.06300414200992353, "train/reward_loss_std": 0.23405433768226255, "train/reward_max_data": 219.29032258064515, "train/reward_max_pred": 157.64715051958638, "train/reward_neg_acc": 0.9811207271391346, "train/reward_neg_loss": 0.0061484145729111565, "train/reward_pos_acc": 0.9946977553829071, "train/reward_pos_loss": 0.6293725071414824, "train/reward_pred": 1.0556834493913958, "train/reward_rate": 0.09194178427419354, "train_stats/mean_log_entropy": 0.5512059330940247, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.500757538356993e-07, "report/cont_loss_std": 1.1426795936131384e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.500757538356993e-07, "report/cont_pred": 0.999999463558197, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.052100658416748, "report/dyn_loss_std": 5.6025166511535645, "report/image_loss_mean": 1.0231056213378906, "report/image_loss_std": 0.90984046459198, "report/model_loss_mean": 2.914637565612793, "report/model_loss_std": 3.888087511062622, "report/post_ent_mag": 55.84491729736328, "report/post_ent_max": 55.84491729736328, "report/post_ent_mean": 40.13616943359375, "report/post_ent_min": 9.67637825012207, "report/post_ent_std": 5.4299845695495605, "report/prior_ent_mag": 85.34580993652344, "report/prior_ent_max": 85.34580993652344, "report/prior_ent_mean": 43.298614501953125, "report/prior_ent_min": 12.460680961608887, "report/prior_ent_std": 7.560462951660156, "report/rep_loss_mean": 3.052100658416748, "report/rep_loss_std": 5.6025166511535645, "report/reward_avg": 1.455078125, "report/reward_loss_mean": 0.060270920395851135, "report/reward_loss_std": 0.19713793694972992, "report/reward_max_data": 500.0, "report/reward_max_pred": 249.48460388183594, "report/reward_neg_acc": 0.985991358757019, "report/reward_neg_loss": 0.0059084841050207615, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5857744812965393, "report/reward_pred": 1.1907025575637817, "report/reward_rate": 0.09375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.011471875943243504, "eval/cont_loss_std": 0.2709754705429077, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.7505292892456055, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00024084403412416577, "eval/cont_pred": 0.9997509121894836, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 6.78057336807251, "eval/dyn_loss_std": 8.37985610961914, "eval/image_loss_mean": 1.4242112636566162, "eval/image_loss_std": 1.4645483493804932, "eval/model_loss_mean": 5.917000770568848, "eval/model_loss_std": 6.43658971786499, "eval/post_ent_mag": 62.683685302734375, "eval/post_ent_max": 62.683685302734375, "eval/post_ent_mean": 42.349037170410156, "eval/post_ent_min": 19.648300170898438, "eval/post_ent_std": 4.735988140106201, "eval/prior_ent_mag": 85.34580993652344, "eval/prior_ent_max": 85.34580993652344, "eval/prior_ent_mean": 46.13702392578125, "eval/prior_ent_min": 25.845060348510742, "eval/prior_ent_std": 7.152929782867432, "eval/rep_loss_mean": 6.78057336807251, "eval/rep_loss_std": 8.37985610961914, "eval/reward_avg": 1.42578125, "eval/reward_loss_mean": 0.41297343373298645, "eval/reward_loss_std": 1.8136335611343384, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008833885192871, "eval/reward_neg_acc": 0.9396355748176575, "eval/reward_neg_loss": 0.052094150334596634, "eval/reward_pos_acc": 0.801369845867157, "eval/reward_pos_loss": 2.5831925868988037, "eval/reward_pred": 1.0548721551895142, "eval/reward_rate": 0.142578125, "replay/size": 154647.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.934602741120783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3706663333653941e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.15367555618286, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 393.6016893386841, "timer/replay._sample_frac": 1.311333897908605, "timer/replay._sample_avg": 0.015881281848720306, "timer/replay._sample_min": 0.0004451274871826172, "timer/replay._sample_max": 0.05009007453918457, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.753313302993774, "timer/env.step_frac": 0.022499518923031436, "timer/env.step_avg": 0.0043597890916680275, "timer/env.step_min": 0.0023756027221679688, "timer/env.step_max": 0.03366279602050781, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.22778582572937, "timer/agent.policy_frac": 0.3705694611922542, "timer/agent.policy_avg": 0.07180618839621006, "timer/agent.policy_min": 0.002855062484741211, "timer/agent.policy_max": 0.08697724342346191, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.1552879810333252, "timer/dataset_train_frac": 0.0005173615840138474, "timer/dataset_train_avg": 0.00010025047193888005, "timer/dataset_train_min": 6.079673767089844e-05, "timer/dataset_train_max": 0.0002486705780029297, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.82056546211243, "timer/agent.train_frac": 0.6024266240520062, "timer/agent.train_avg": 0.11673374142163488, "timer/agent.train_min": 0.10340285301208496, "timer/agent.train_max": 0.20183300971984863, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.260317325592041, "timer/agent.report_frac": 0.0008672801527739904, "timer/agent.report_avg": 0.1301586627960205, "timer/agent.report_min": 0.09930586814880371, "timer/agent.report_max": 0.1610114574432373, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.628036499023438e-05, "timer/dataset_eval_frac": 2.2082143377860452e-07, "timer/dataset_eval_avg": 6.628036499023438e-05, "timer/dataset_eval_min": 6.628036499023438e-05, "timer/dataset_eval_max": 6.628036499023438e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.641181214269952}
{"step": 493096, "episode/length": 508.0, "episode/score": 390.0, "episode/reward_rate": 0.07662082514734773}
{"step": 494800, "episode/length": 425.0, "episode/score": 1040.0, "episode/reward_rate": 0.12910798122065728}
{"step": 496364, "episode/length": 390.0, "episode/score": 500.0, "episode/reward_rate": 0.1278772378516624}
{"step": 497872, "episode/length": 376.0, "episode/score": 970.0, "episode/reward_rate": 0.1273209549071618}
{"step": 499052, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.514203471522178, "train/action_min": 0.0, "train/action_std": 4.2694098426449685, "train/actor_opt_grad_norm": 0.008243764528343755, "train/actor_opt_grad_steps": 122890.0, "train/actor_opt_loss": 0.0003000183374693264, "train/adv_mag": 0.8403522474150504, "train/adv_max": 0.8065142722860459, "train/adv_mean": 0.0027391660423158864, "train/adv_min": -0.5142110820739499, "train/adv_std": 0.040663175092589474, "train/cont_avg": 0.9980531754032258, "train/cont_loss_mean": 0.0005611657126634086, "train/cont_loss_std": 0.014406666398581035, "train/cont_neg_acc": 0.9418465242111426, "train/cont_neg_loss": 0.17064269444454308, "train/cont_pos_acc": 0.9999431171724873, "train/cont_pos_loss": 0.00022475799909034002, "train/cont_pred": 0.9980570681633488, "train/cont_rate": 0.9980531754032258, "train/dyn_loss_mean": 2.951056589618806, "train/dyn_loss_std": 6.058966655115928, "train/extr_critic_critic_opt_grad_norm": 1.5034559622887642, "train/extr_critic_critic_opt_grad_steps": 122890.0, "train/extr_critic_critic_opt_loss": 1.4379608485006516, "train/extr_critic_mag": 425.07002583165325, "train/extr_critic_max": 425.07002583165325, "train/extr_critic_mean": 194.20491894137476, "train/extr_critic_min": 0.0737267832602224, "train/extr_critic_std": 125.17403529997794, "train/extr_return_normed_mag": 1.4560845175097066, "train/extr_return_normed_max": 1.4560845175097066, "train/extr_return_normed_mean": 0.5083486307051874, "train/extr_return_normed_min": -0.018525255789920207, "train/extr_return_normed_std": 0.34182714098884215, "train/extr_return_rate": 0.9474147846621852, "train/extr_return_raw_mag": 545.8785398421749, "train/extr_return_raw_max": 545.8785398421749, "train/extr_return_raw_mean": 195.21805080290764, "train/extr_return_raw_min": 0.3233587622766443, "train/extr_return_raw_std": 126.46615236343877, "train/extr_reward_mag": 238.2889722208823, "train/extr_reward_max": 238.2889722208823, "train/extr_reward_mean": 1.0117824081451663, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.695506452745007, "train/image_loss_mean": 0.978565998231211, "train/image_loss_std": 0.8403741440465373, "train/model_loss_mean": 2.8127224799125425, "train/model_loss_std": 4.1929460279403195, "train/model_opt_grad_norm": 9.690433133033014, "train/model_opt_grad_steps": 122890.0, "train/model_opt_loss": 2.8127224799125425, "train/policy_entropy_mag": 2.664629353246381, "train/policy_entropy_max": 2.664629353246381, "train/policy_entropy_mean": 0.7380231691944984, "train/policy_entropy_min": 0.08019132575681133, "train/policy_entropy_std": 0.6811162971681164, "train/policy_logprob_mag": 7.495540449696202, "train/policy_logprob_max": -0.00948955295307021, "train/policy_logprob_mean": -0.7374633958262782, "train/policy_logprob_min": -7.495540449696202, "train/policy_logprob_std": 1.2155553986949306, "train/policy_randomness_mag": 0.9218985061491689, "train/policy_randomness_max": 0.9218985061491689, "train/policy_randomness_mean": 0.25533849952682375, "train/policy_randomness_min": 0.02774429529184295, "train/policy_randomness_std": 0.2356500712133223, "train/post_ent_mag": 64.70420692197739, "train/post_ent_max": 64.70420692197739, "train/post_ent_mean": 40.94499378819619, "train/post_ent_min": 11.925119415406257, "train/post_ent_std": 5.425044533514208, "train/prior_ent_mag": 85.41648411904612, "train/prior_ent_max": 85.41648411904612, "train/prior_ent_mean": 43.90286023539881, "train/prior_ent_min": 14.869543924639302, "train/prior_ent_std": 7.604708797700943, "train/rep_loss_mean": 2.951056589618806, "train/rep_loss_std": 6.058966655115928, "train/reward_avg": 1.1685987903225807, "train/reward_loss_mean": 0.06296135946627586, "train/reward_loss_std": 0.23380247392962056, "train/reward_max_data": 200.0, "train/reward_max_pred": 150.28864284023163, "train/reward_neg_acc": 0.9819407251573378, "train/reward_neg_loss": 0.006097855672029959, "train/reward_pos_acc": 0.9954786266050031, "train/reward_pos_loss": 0.6243863032710167, "train/reward_pred": 1.0601979342199142, "train/reward_rate": 0.09240171370967742, "train_stats/mean_log_entropy": 0.5934157520532608, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 5.010936001781374e-05, "report/cont_loss_std": 0.0009874932002276182, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.003257421776652336, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.068532871315256e-05, "report/cont_pred": 0.9970396757125854, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.500636339187622, "report/dyn_loss_std": 5.845066547393799, "report/image_loss_mean": 0.8931839466094971, "report/image_loss_std": 0.7545015811920166, "report/model_loss_mean": 2.468681812286377, "report/model_loss_std": 4.052016735076904, "report/post_ent_mag": 66.13055419921875, "report/post_ent_max": 66.13055419921875, "report/post_ent_mean": 40.82411193847656, "report/post_ent_min": 13.169107437133789, "report/post_ent_std": 5.027995586395264, "report/prior_ent_mag": 85.45742797851562, "report/prior_ent_max": 85.45742797851562, "report/prior_ent_mean": 43.45074462890625, "report/prior_ent_min": 16.47756576538086, "report/prior_ent_std": 7.575879096984863, "report/rep_loss_mean": 2.500636339187622, "report/rep_loss_std": 5.845066547393799, "report/reward_avg": 1.025390625, "report/reward_loss_mean": 0.07506603002548218, "report/reward_loss_std": 0.35663720965385437, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99916648864746, "report/reward_neg_acc": 0.9836956262588501, "report/reward_neg_loss": 0.013130529783666134, "report/reward_pos_acc": 0.9903846383094788, "report/reward_pos_loss": 0.6229569315910339, "report/reward_pred": 0.9899320602416992, "report/reward_rate": 0.1015625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 2.007178591156844e-05, "eval/cont_loss_std": 0.00048272759886458516, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.014484899118542671, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.932170552114258e-06, "eval/cont_pred": 0.9990316033363342, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 6.875465393066406, "eval/dyn_loss_std": 9.232433319091797, "eval/image_loss_mean": 1.609050989151001, "eval/image_loss_std": 2.0936083793640137, "eval/model_loss_mean": 5.921405792236328, "eval/model_loss_std": 7.403754234313965, "eval/post_ent_mag": 63.00032424926758, "eval/post_ent_max": 63.00032424926758, "eval/post_ent_mean": 40.767578125, "eval/post_ent_min": 9.81734848022461, "eval/post_ent_std": 5.2292094230651855, "eval/prior_ent_mag": 85.45742797851562, "eval/prior_ent_max": 85.45742797851562, "eval/prior_ent_mean": 44.5219612121582, "eval/prior_ent_min": 13.155806541442871, "eval/prior_ent_std": 7.457271575927734, "eval/rep_loss_mean": 6.875465393066406, "eval/rep_loss_std": 9.232433319091797, "eval/reward_avg": 1.171875, "eval/reward_loss_mean": 0.18705560266971588, "eval/reward_loss_std": 1.05540931224823, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 11.323044776916504, "eval/reward_neg_acc": 0.9734513163566589, "eval/reward_neg_loss": 0.009141674265265465, "eval/reward_pos_acc": 0.8916667103767395, "eval/reward_pos_loss": 1.5273405313491821, "eval/reward_pred": 0.9882037043571472, "eval/reward_rate": 0.1171875, "replay/size": 156194.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.144570516476573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3318382391408711e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11508560180664, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 388.45127153396606, "timer/replay._sample_frac": 1.2943410383887335, "timer/replay._sample_avg": 0.01569373268963987, "timer/replay._sample_min": 0.0004794597625732422, "timer/replay._sample_max": 0.04828643798828125, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.7812416553497314, "timer/env.step_frac": 0.02259547080664615, "timer/env.step_avg": 0.004383478768810427, "timer/env.step_min": 0.0023169517517089844, "timer/env.step_max": 0.0346376895904541, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.97393608093262, "timer/agent.policy_frac": 0.36977126910632235, "timer/agent.policy_avg": 0.07173492959336304, "timer/agent.policy_min": 0.0028600692749023438, "timer/agent.policy_max": 0.08798027038574219, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1581559181213379, "timer/dataset_train_frac": 0.000526984232745899, "timer/dataset_train_avg": 0.00010223394836544143, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.00022912025451660156, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.98175477981567, "timer/agent.train_frac": 0.6030411780764086, "timer/agent.train_avg": 0.11698885247564038, "timer/agent.train_min": 0.10268926620483398, "timer/agent.train_max": 0.20186281204223633, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.257735013961792, "timer/agent.report_frac": 0.0008587872663747245, "timer/agent.report_avg": 0.128867506980896, "timer/agent.report_min": 0.09841442108154297, "timer/agent.report_max": 0.15932059288024902, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.3392181396484375e-05, "timer/dataset_eval_frac": 1.4458513909579746e-07, "timer/dataset_eval_avg": 4.3392181396484375e-05, "timer/dataset_eval_min": 4.3392181396484375e-05, "timer/dataset_eval_max": 4.3392181396484375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61736614265617}
{"step": 499632, "episode/length": 439.0, "episode/score": 1040.0, "episode/reward_rate": 0.125}
{"step": 501404, "episode/length": 442.0, "episode/score": 530.0, "episode/reward_rate": 0.11738148984198646}
{"step": 502992, "episode/length": 396.0, "episode/score": 990.0, "episode/reward_rate": 0.12594458438287154}
{"step": 504528, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.1328125}
{"step": 505236, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.74142059722504, "train/action_min": 0.0, "train/action_std": 4.260925285227887, "train/actor_opt_grad_norm": 0.008598497089046937, "train/actor_opt_grad_steps": 124435.0, "train/actor_opt_loss": 5.5199341609118344e-05, "train/adv_mag": 0.9368558842446897, "train/adv_max": 0.9041914465752515, "train/adv_mean": 0.002229770405687919, "train/adv_min": -0.5450242345596289, "train/adv_std": 0.04205641459504312, "train/cont_avg": 0.9982244318181818, "train/cont_loss_mean": 0.0004960391873769539, "train/cont_loss_std": 0.012479886710071912, "train/cont_neg_acc": 0.9264411036681411, "train/cont_neg_loss": 0.15930888011803462, "train/cont_pos_acc": 0.9999300280174652, "train/cont_pos_loss": 0.0001787274120276311, "train/cont_pred": 0.9982544094711155, "train/cont_rate": 0.9982244318181818, "train/dyn_loss_mean": 2.901699253490993, "train/dyn_loss_std": 6.019851059108586, "train/extr_critic_critic_opt_grad_norm": 1.4326650674466963, "train/extr_critic_critic_opt_grad_steps": 124435.0, "train/extr_critic_critic_opt_loss": 1.4171041497936496, "train/extr_critic_mag": 432.5707339992771, "train/extr_critic_max": 432.5707339992771, "train/extr_critic_mean": 198.41746109801454, "train/extr_critic_min": 0.304681590625218, "train/extr_critic_std": 126.44602243002359, "train/extr_return_normed_mag": 1.5080029414845753, "train/extr_return_normed_max": 1.5080029414845753, "train/extr_return_normed_mean": 0.5115515895478138, "train/extr_return_normed_min": -0.01968870909170961, "train/extr_return_normed_std": 0.34087475302157466, "train/extr_return_rate": 0.9507762259477145, "train/extr_return_raw_mag": 572.2913275384284, "train/extr_return_raw_max": 572.2913275384284, "train/extr_return_raw_mean": 199.25222401804737, "train/extr_return_raw_min": 0.2932204886576971, "train/extr_return_raw_std": 127.6517567324948, "train/extr_reward_mag": 296.3120599412299, "train/extr_reward_max": 296.3120599412299, "train/extr_reward_mean": 1.03725045261445, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.220180307115827, "train/image_loss_mean": 0.9575856374455737, "train/image_loss_std": 0.8099422919285761, "train/model_loss_mean": 2.761818425995963, "train/model_loss_std": 4.142329428103063, "train/model_opt_grad_norm": 9.365717986961464, "train/model_opt_grad_steps": 124435.0, "train/model_opt_loss": 2.761818425995963, "train/policy_entropy_mag": 2.6659624065671648, "train/policy_entropy_max": 2.6659624065671648, "train/policy_entropy_mean": 0.7220021896548086, "train/policy_entropy_min": 0.08019134261971944, "train/policy_entropy_std": 0.6672616608731159, "train/policy_logprob_mag": 7.495541448716994, "train/policy_logprob_max": -0.009489546070334974, "train/policy_logprob_mean": -0.7228774385792869, "train/policy_logprob_min": -7.495541448716994, "train/policy_logprob_std": 1.2079831764295503, "train/policy_randomness_mag": 0.9223597103899176, "train/policy_randomness_max": 0.9223597103899176, "train/policy_randomness_mean": 0.2497956192532143, "train/policy_randomness_min": 0.02774430106260947, "train/policy_randomness_std": 0.2308566973774464, "train/post_ent_mag": 64.1048780664221, "train/post_ent_max": 64.1048780664221, "train/post_ent_mean": 40.878177271260846, "train/post_ent_min": 12.197156655323969, "train/post_ent_std": 5.4328196791859416, "train/prior_ent_mag": 85.44709391408152, "train/prior_ent_max": 85.44709391408152, "train/prior_ent_mean": 43.81474596494204, "train/prior_ent_min": 14.629962345222374, "train/prior_ent_std": 7.60345907025523, "train/rep_loss_mean": 2.901699253490993, "train/rep_loss_std": 6.019851059108586, "train/reward_avg": 1.2096058238636365, "train/reward_loss_mean": 0.06271719027842794, "train/reward_loss_std": 0.224867441050418, "train/reward_max_data": 236.36363636363637, "train/reward_max_pred": 190.15185590223834, "train/reward_neg_acc": 0.9823206043862677, "train/reward_neg_loss": 0.005702911996337065, "train/reward_pos_acc": 0.9961780661886389, "train/reward_pos_loss": 0.6189443902535872, "train/reward_pred": 1.0976811891252345, "train/reward_rate": 0.09332513189935066, "train_stats/mean_log_entropy": 0.577861599624157, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.0605541319819167e-05, "report/cont_loss_std": 0.0003047186473850161, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00014074341743253171, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0478329386387486e-05, "report/cont_pred": 0.9990131855010986, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.46551251411438, "report/dyn_loss_std": 5.62190055847168, "report/image_loss_mean": 0.7243624925613403, "report/image_loss_std": 0.6973767876625061, "report/model_loss_mean": 2.275674343109131, "report/model_loss_std": 3.843975305557251, "report/post_ent_mag": 63.48088836669922, "report/post_ent_max": 63.48088836669922, "report/post_ent_mean": 40.18597412109375, "report/post_ent_min": 8.514884948730469, "report/post_ent_std": 5.922592639923096, "report/prior_ent_mag": 85.41072082519531, "report/prior_ent_max": 85.41072082519531, "report/prior_ent_mean": 42.84046936035156, "report/prior_ent_min": 10.152230262756348, "report/prior_ent_std": 8.018906593322754, "report/rep_loss_mean": 2.46551251411438, "report/rep_loss_std": 5.62190055847168, "report/reward_avg": 1.15234375, "report/reward_loss_mean": 0.07199375331401825, "report/reward_loss_std": 0.24734444916248322, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.993528366088867, "report/reward_neg_acc": 0.9900771975517273, "report/reward_neg_loss": 0.0017697304720059037, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6163800358772278, "report/reward_pred": 1.1079119443893433, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.008997360244393349, "eval/cont_loss_std": 0.2724704444408417, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.359658718109131, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0004833448911085725, "eval/cont_pred": 0.9986060261726379, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 7.664610862731934, "eval/dyn_loss_std": 9.687416076660156, "eval/image_loss_mean": 1.7893850803375244, "eval/image_loss_std": 2.1813738346099854, "eval/model_loss_mean": 6.637744426727295, "eval/model_loss_std": 7.4848198890686035, "eval/post_ent_mag": 67.2686538696289, "eval/post_ent_max": 67.2686538696289, "eval/post_ent_mean": 40.486698150634766, "eval/post_ent_min": 8.937691688537598, "eval/post_ent_std": 5.486998081207275, "eval/prior_ent_mag": 85.41072082519531, "eval/prior_ent_max": 85.41072082519531, "eval/prior_ent_mean": 44.440128326416016, "eval/prior_ent_min": 9.957850456237793, "eval/prior_ent_std": 7.778867244720459, "eval/rep_loss_mean": 7.664610862731934, "eval/rep_loss_std": 9.687416076660156, "eval/reward_avg": 1.58203125, "eval/reward_loss_mean": 0.24059581756591797, "eval/reward_loss_std": 1.2254173755645752, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 456.54052734375, "eval/reward_neg_acc": 0.9451152682304382, "eval/reward_neg_loss": 0.03615204989910126, "eval/reward_pos_acc": 0.8938053250312805, "eval/reward_pos_loss": 1.888810634613037, "eval/reward_pred": 1.327275037765503, "eval/reward_rate": 0.1103515625, "replay/size": 157740.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 5.0234455340584066e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3436683553619188e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4007091522216797e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16355443000793, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.69681668281555, "timer/replay._sample_frac": 1.3016131069767103, "timer/replay._sample_avg": 0.015794664322558844, "timer/replay._sample_min": 0.00047469139099121094, "timer/replay._sample_max": 0.25588107109069824, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.769870042800903, "timer/env.step_frac": 0.022553937488035376, "timer/env.step_avg": 0.0043789586305309856, "timer/env.step_min": 0.0024428367614746094, "timer/env.step_max": 0.030167818069458008, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.11834716796875, "timer/agent.policy_frac": 0.3701926683903235, "timer/agent.policy_avg": 0.07187473943594357, "timer/agent.policy_min": 0.002891063690185547, "timer/agent.policy_max": 0.16119384765625, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15813374519348145, "timer/dataset_train_frac": 0.0005268252686231933, "timer/dataset_train_avg": 0.00010228573427780172, "timer/dataset_train_min": 6.222724914550781e-05, "timer/dataset_train_max": 0.00025177001953125, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.9030909538269, "timer/agent.train_frac": 0.6026817322887541, "timer/agent.train_avg": 0.11701364227285052, "timer/agent.train_min": 0.1028904914855957, "timer/agent.train_max": 0.38030338287353516, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2630746364593506, "timer/agent.report_frac": 0.000876437637337128, "timer/agent.report_avg": 0.1315373182296753, "timer/agent.report_min": 0.10163521766662598, "timer/agent.report_max": 0.1614394187927246, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.772445678710938e-05, "timer/dataset_eval_frac": 2.589403531508125e-07, "timer/dataset_eval_avg": 7.772445678710938e-05, "timer/dataset_eval_min": 7.772445678710938e-05, "timer/dataset_eval_max": 7.772445678710938e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15241789817810059, "timer/agent.save_frac": 0.000507782826824305, "timer/agent.save_avg": 0.15241789817810059, "timer/agent.save_min": 0.15241789817810059, "timer/agent.save_max": 0.15241789817810059, "fps": 20.60070772728962}
{"step": 506272, "episode/length": 435.0, "episode/score": 1040.0, "episode/reward_rate": 0.12614678899082568}
{"step": 508036, "episode/length": 440.0, "episode/score": 1080.0, "episode/reward_rate": 0.13378684807256236}
{"step": 509568, "episode/length": 382.0, "episode/score": 1010.0, "episode/reward_rate": 0.13577023498694518}
{"step": 511108, "episode/length": 384.0, "episode/score": 1000.0, "episode/reward_rate": 0.13246753246753246}
{"step": 511428, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.778173828125, "train/action_min": 0.0, "train/action_std": 4.189904196031632, "train/actor_opt_grad_norm": 0.00831214319313726, "train/actor_opt_grad_steps": 125980.0, "train/actor_opt_loss": 0.00016122742305334039, "train/adv_mag": 0.8683860400992055, "train/adv_max": 0.8418173380436436, "train/adv_mean": 0.0022952646252134955, "train/adv_min": -0.4926260087759264, "train/adv_std": 0.03910227786869772, "train/cont_avg": 0.9981035786290322, "train/cont_loss_mean": 0.00048553819578497464, "train/cont_loss_std": 0.012581676892725022, "train/cont_neg_acc": 0.9438405805739803, "train/cont_neg_loss": 0.1259614558047174, "train/cont_pos_acc": 0.9999241925054981, "train/cont_pos_loss": 0.00023186669783665218, "train/cont_pred": 0.9980728249396047, "train/cont_rate": 0.9981035786290322, "train/dyn_loss_mean": 2.854296193584319, "train/dyn_loss_std": 6.015217285771524, "train/extr_critic_critic_opt_grad_norm": 1.4654156469529676, "train/extr_critic_critic_opt_grad_steps": 125980.0, "train/extr_critic_critic_opt_loss": 1.4278204741016511, "train/extr_critic_mag": 430.32334594726564, "train/extr_critic_max": 430.32334594726564, "train/extr_critic_mean": 196.36636928435294, "train/extr_critic_min": 0.019101918897321147, "train/extr_critic_std": 128.08822641680317, "train/extr_return_normed_mag": 1.4338282642825957, "train/extr_return_normed_max": 1.4338282642825957, "train/extr_return_normed_mean": 0.5043201786856497, "train/extr_return_normed_min": -0.020422874733565317, "train/extr_return_normed_std": 0.34325369596481325, "train/extr_return_rate": 0.9478520316462363, "train/extr_return_raw_mag": 546.5866807506931, "train/extr_return_raw_max": 546.5866807506931, "train/extr_return_raw_mean": 197.22926694808467, "train/extr_return_raw_min": 0.016177411161498317, "train/extr_return_raw_std": 129.0130595545615, "train/extr_reward_mag": 270.15799240604525, "train/extr_reward_max": 270.15799240604525, "train/extr_reward_mean": 0.9921621441841125, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.741088474950483, "train/image_loss_mean": 0.9473715489910495, "train/image_loss_std": 0.8036520923337629, "train/model_loss_mean": 2.721081821380123, "train/model_loss_std": 4.130520708330216, "train/model_opt_grad_norm": 9.433996489740187, "train/model_opt_grad_steps": 125980.0, "train/model_opt_loss": 2.721081821380123, "train/policy_entropy_mag": 2.6663698119501915, "train/policy_entropy_max": 2.6663698119501915, "train/policy_entropy_mean": 0.7461954805158799, "train/policy_entropy_min": 0.08019151134837059, "train/policy_entropy_std": 0.680400308485954, "train/policy_logprob_mag": 7.4955403051068705, "train/policy_logprob_max": -0.009489542263890467, "train/policy_logprob_mean": -0.7457620932209876, "train/policy_logprob_min": -7.4955403051068705, "train/policy_logprob_std": 1.2169545427445443, "train/policy_randomness_mag": 0.922500664572562, "train/policy_randomness_max": 0.922500664572562, "train/policy_randomness_mean": 0.2581659236261922, "train/policy_randomness_min": 0.027744359499023808, "train/policy_randomness_std": 0.235402355271001, "train/post_ent_mag": 64.02303722750756, "train/post_ent_max": 64.02303722750756, "train/post_ent_mean": 40.8288708348428, "train/post_ent_min": 11.459428110430318, "train/post_ent_std": 5.471854972839355, "train/prior_ent_mag": 85.34046945879537, "train/prior_ent_max": 85.34046945879537, "train/prior_ent_mean": 43.70540303876323, "train/prior_ent_min": 14.121440678258097, "train/prior_ent_std": 7.631209678034629, "train/rep_loss_mean": 2.854296193584319, "train/rep_loss_std": 6.015217285771524, "train/reward_avg": 1.1896421370967742, "train/reward_loss_mean": 0.06064701284612379, "train/reward_loss_std": 0.21958668039691065, "train/reward_max_data": 231.5483870967742, "train/reward_max_pred": 180.07798596659015, "train/reward_neg_acc": 0.9829734883000774, "train/reward_neg_loss": 0.005392279762834791, "train/reward_pos_acc": 0.9964670838848237, "train/reward_pos_loss": 0.6137684106826782, "train/reward_pred": 1.0844999167226976, "train/reward_rate": 0.09094002016129032, "train_stats/mean_log_entropy": 0.5529550760984421, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.000381141813704744, "report/cont_loss_std": 0.007204300258308649, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.08004281669855118, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00022524813539348543, "report/cont_pred": 0.9979854226112366, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.789937734603882, "report/dyn_loss_std": 6.327368259429932, "report/image_loss_mean": 1.0131028890609741, "report/image_loss_std": 0.9142370820045471, "report/model_loss_mean": 2.7257940769195557, "report/model_loss_std": 4.414274215698242, "report/post_ent_mag": 64.3248291015625, "report/post_ent_max": 64.3248291015625, "report/post_ent_mean": 41.16630172729492, "report/post_ent_min": 11.819802284240723, "report/post_ent_std": 5.807612419128418, "report/prior_ent_mag": 85.36447143554688, "report/prior_ent_max": 85.36447143554688, "report/prior_ent_mean": 43.74005889892578, "report/prior_ent_min": 12.73692512512207, "report/prior_ent_std": 7.890550136566162, "report/rep_loss_mean": 2.789937734603882, "report/rep_loss_std": 6.327368259429932, "report/reward_avg": 1.6015625, "report/reward_loss_mean": 0.03834724426269531, "report/reward_loss_std": 0.14078019559383392, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.62603759765625, "report/reward_neg_acc": 0.9885297417640686, "report/reward_neg_loss": 0.003576170187443495, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5513543486595154, "report/reward_pred": 1.5749452114105225, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0042593758553266525, "eval/cont_loss_std": 0.1319194883108139, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.413813829421997, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00011768786498578265, "eval/cont_pred": 0.9979363679885864, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.93783950805664, "eval/dyn_loss_std": 11.392610549926758, "eval/image_loss_mean": 2.5403690338134766, "eval/image_loss_std": 2.835448980331421, "eval/model_loss_mean": 9.361064910888672, "eval/model_loss_std": 9.272544860839844, "eval/post_ent_mag": 63.050228118896484, "eval/post_ent_max": 63.050228118896484, "eval/post_ent_mean": 40.76845932006836, "eval/post_ent_min": 9.427783966064453, "eval/post_ent_std": 5.1532464027404785, "eval/prior_ent_mag": 85.36447143554688, "eval/prior_ent_max": 85.36447143554688, "eval/prior_ent_mean": 44.93999481201172, "eval/prior_ent_min": 12.52328109741211, "eval/prior_ent_std": 7.905792713165283, "eval/rep_loss_mean": 10.93783950805664, "eval/rep_loss_std": 11.392610549926758, "eval/reward_avg": 1.42578125, "eval/reward_loss_mean": 0.25373274087905884, "eval/reward_loss_std": 1.5509034395217896, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 14.228713035583496, "eval/reward_neg_acc": 0.9687162637710571, "eval/reward_neg_loss": 0.017665855586528778, "eval/reward_pos_acc": 0.8350515961647034, "eval/reward_pos_loss": 2.509753465652466, "eval/reward_pred": 0.764176607131958, "eval/reward_rate": 0.0947265625, "replay/size": 159288.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.988462117907305e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3666713576600224e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1537141799927, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 397.2792646884918, "timer/replay._sample_frac": 1.3235860358211526, "timer/replay._sample_avg": 0.016040021991621925, "timer/replay._sample_min": 0.0003845691680908203, "timer/replay._sample_max": 0.0509645938873291, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.718042612075806, "timer/env.step_frac": 0.022382007267273754, "timer/env.step_avg": 0.0043398208088345, "timer/env.step_min": 0.0016100406646728516, "timer/env.step_max": 0.03485250473022461, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.32516717910767, "timer/agent.policy_frac": 0.3708938517827219, "timer/agent.policy_avg": 0.07191548267384217, "timer/agent.policy_min": 0.0030400753021240234, "timer/agent.policy_max": 0.08761405944824219, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15918397903442383, "timer/dataset_train_frac": 0.0005303415267384172, "timer/dataset_train_avg": 0.00010283202780001539, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.00022172927856445312, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.71607947349548, "timer/agent.train_frac": 0.6020784382668867, "timer/agent.train_avg": 0.11674165340665082, "timer/agent.train_min": 0.10361838340759277, "timer/agent.train_max": 0.20170044898986816, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2676513195037842, "timer/agent.report_frac": 0.0008917141679722216, "timer/agent.report_avg": 0.1338256597518921, "timer/agent.report_min": 0.10014128684997559, "timer/agent.report_max": 0.1675100326538086, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.53131103515625e-05, "timer/dataset_eval_frac": 1.8428261167007575e-07, "timer/dataset_eval_avg": 5.53131103515625e-05, "timer/dataset_eval_min": 5.53131103515625e-05, "timer/dataset_eval_max": 5.53131103515625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.628172185979754}
{"step": 512784, "episode/length": 418.0, "episode/score": 1010.0, "episode/reward_rate": 0.12171837708830549}
{"step": 514360, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.1319796954314721}
{"step": 517140, "episode/length": 694.0, "episode/score": 1130.0, "episode/reward_rate": 0.09064748201438849}
{"step": 517620, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.732831007434475, "train/action_min": 0.0, "train/action_std": 4.151557145580169, "train/actor_opt_grad_norm": 0.008258327619443017, "train/actor_opt_grad_steps": 127530.0, "train/actor_opt_loss": -7.614914906767925e-05, "train/adv_mag": 0.8684623998980369, "train/adv_max": 0.8406255765307334, "train/adv_mean": 0.0020307221254927668, "train/adv_min": -0.5083770305879655, "train/adv_std": 0.0401478128627904, "train/cont_avg": 0.9981917842741935, "train/cont_loss_mean": 0.0006893828030417725, "train/cont_loss_std": 0.017278426925298435, "train/cont_neg_acc": 0.9264322924427688, "train/cont_neg_loss": 0.2030826253413971, "train/cont_pos_acc": 0.9998989728189284, "train/cont_pos_loss": 0.00027164759453082954, "train/cont_pred": 0.9981712941200502, "train/cont_rate": 0.9981917842741935, "train/dyn_loss_mean": 3.003509267683952, "train/dyn_loss_std": 6.047262883955432, "train/extr_critic_critic_opt_grad_norm": 1.5058978957514608, "train/extr_critic_critic_opt_grad_steps": 127530.0, "train/extr_critic_critic_opt_loss": 1.4270415306091309, "train/extr_critic_mag": 432.1384596301663, "train/extr_critic_max": 432.1384596301663, "train/extr_critic_mean": 202.81033630371093, "train/extr_critic_min": 0.47317631167750207, "train/extr_critic_std": 129.20794421780494, "train/extr_return_normed_mag": 1.4093139075463819, "train/extr_return_normed_max": 1.4093139075463819, "train/extr_return_normed_mean": 0.516244290721032, "train/extr_return_normed_min": -0.016327313551371316, "train/extr_return_normed_std": 0.3419728929958036, "train/extr_return_rate": 0.9506750310620954, "train/extr_return_raw_mag": 543.7531883978074, "train/extr_return_raw_max": 543.7531883978074, "train/extr_return_raw_mean": 203.58416088473413, "train/extr_return_raw_min": 0.8095369252939558, "train/extr_return_raw_std": 130.2209478070659, "train/extr_reward_mag": 297.067397111462, "train/extr_reward_max": 297.067397111462, "train/extr_reward_mean": 1.0389799502588088, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.271627539973105, "train/image_loss_mean": 0.9400121988788728, "train/image_loss_std": 0.7952009600977744, "train/model_loss_mean": 2.8068756595734627, "train/model_loss_std": 4.149441811346239, "train/model_opt_grad_norm": 9.759654281985375, "train/model_opt_grad_steps": 127530.0, "train/model_opt_loss": 2.8068756595734627, "train/policy_entropy_mag": 2.6738605530031267, "train/policy_entropy_max": 2.6738605530031267, "train/policy_entropy_mean": 0.7163725076183196, "train/policy_entropy_min": 0.08019152687441918, "train/policy_entropy_std": 0.6708298737002957, "train/policy_logprob_mag": 7.49553965906943, "train/policy_logprob_max": -0.009489521666640235, "train/policy_logprob_mean": -0.7165208547346054, "train/policy_logprob_min": -7.49553965906943, "train/policy_logprob_std": 1.2040738682593068, "train/policy_randomness_mag": 0.9250922826028639, "train/policy_randomness_max": 0.9250922826028639, "train/policy_randomness_mean": 0.2478478826822773, "train/policy_randomness_min": 0.02774436483460088, "train/policy_randomness_std": 0.23209121275332667, "train/post_ent_mag": 64.15001427435107, "train/post_ent_max": 64.15001427435107, "train/post_ent_mean": 40.81571020310925, "train/post_ent_min": 10.991720064224735, "train/post_ent_std": 5.537848497206165, "train/prior_ent_mag": 85.44012677592616, "train/prior_ent_max": 85.44012677592616, "train/prior_ent_mean": 43.79039584744361, "train/prior_ent_min": 13.832713016386956, "train/prior_ent_std": 7.711428205428585, "train/rep_loss_mean": 3.003509267683952, "train/rep_loss_std": 6.047262883955432, "train/reward_avg": 1.2179939516129032, "train/reward_loss_mean": 0.06406850906149034, "train/reward_loss_std": 0.2331861683437901, "train/reward_max_data": 228.58064516129033, "train/reward_max_pred": 176.0698156910558, "train/reward_neg_acc": 0.9813903977794032, "train/reward_neg_loss": 0.006284119431380062, "train/reward_pos_acc": 0.9950562538639192, "train/reward_pos_loss": 0.6239812258751162, "train/reward_pred": 1.098022932775559, "train/reward_rate": 0.09376260080645162, "train_stats/mean_log_entropy": 0.6580243607362112, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.54650115291588e-05, "report/cont_loss_std": 0.00033475185045972466, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.004952451679855585, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.803589829156408e-06, "report/cont_pred": 0.9980506896972656, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.6178841590881348, "report/dyn_loss_std": 5.667433261871338, "report/image_loss_mean": 0.8368892669677734, "report/image_loss_std": 0.8267233371734619, "report/model_loss_mean": 2.475682497024536, "report/model_loss_std": 3.927664041519165, "report/post_ent_mag": 64.40811920166016, "report/post_ent_max": 64.40811920166016, "report/post_ent_mean": 40.65589904785156, "report/post_ent_min": 9.49496078491211, "report/post_ent_std": 6.219564437866211, "report/prior_ent_mag": 85.2727279663086, "report/prior_ent_max": 85.2727279663086, "report/prior_ent_mean": 43.23469543457031, "report/prior_ent_min": 12.274469375610352, "report/prior_ent_std": 8.192832946777344, "report/rep_loss_mean": 2.6178841590881348, "report/rep_loss_std": 5.667433261871338, "report/reward_avg": 1.162109375, "report/reward_loss_mean": 0.06804737448692322, "report/reward_loss_std": 0.18771280348300934, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.990646362304688, "report/reward_neg_acc": 0.9823399782180786, "report/reward_neg_loss": 0.006405356805771589, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5413327217102051, "report/reward_pred": 1.166400671005249, "report/reward_rate": 0.115234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.9708984331809916e-06, "eval/cont_loss_std": 7.255790114868432e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.9708984331809916e-06, "eval/cont_pred": 0.9999960064888, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 8.31751823425293, "eval/dyn_loss_std": 9.609565734863281, "eval/image_loss_mean": 2.1382734775543213, "eval/image_loss_std": 2.177325963973999, "eval/model_loss_mean": 7.4171881675720215, "eval/model_loss_std": 7.497715950012207, "eval/post_ent_mag": 53.27337646484375, "eval/post_ent_max": 53.27337646484375, "eval/post_ent_mean": 42.20281219482422, "eval/post_ent_min": 13.87414836883545, "eval/post_ent_std": 5.292804718017578, "eval/prior_ent_mag": 85.2727279663086, "eval/prior_ent_max": 85.2727279663086, "eval/prior_ent_mean": 46.4539909362793, "eval/prior_ent_min": 13.310190200805664, "eval/prior_ent_std": 7.073787689208984, "eval/rep_loss_mean": 8.31751823425293, "eval/rep_loss_std": 9.609565734863281, "eval/reward_avg": 1.884765625, "eval/reward_loss_mean": 0.28839972615242004, "eval/reward_loss_std": 1.460174798965454, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 436.13482666015625, "eval/reward_neg_acc": 0.946178674697876, "eval/reward_neg_loss": 0.06362457573413849, "eval/reward_pos_acc": 0.7789474129676819, "eval/reward_pos_loss": 2.486464023590088, "eval/reward_pred": 1.1637680530548096, "eval/reward_rate": 0.0927734375, "replay/size": 160836.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.914533876325425e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3478908889977506e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0090215206146, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 394.7162868976593, "timer/replay._sample_frac": 1.3156813915028787, "timer/replay._sample_avg": 0.015936542591152264, "timer/replay._sample_min": 0.0005195140838623047, "timer/replay._sample_max": 0.053432464599609375, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.65372633934021, "timer/env.step_frac": 0.02217842085419758, "timer/env.step_avg": 0.004298272829031144, "timer/env.step_min": 0.0023071765899658203, "timer/env.step_max": 0.03189444541931152, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.2709641456604, "timer/agent.policy_frac": 0.3708920604509708, "timer/agent.policy_avg": 0.07188046779435427, "timer/agent.policy_min": 0.0028142929077148438, "timer/agent.policy_max": 0.08692002296447754, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15809392929077148, "timer/dataset_train_frac": 0.0005269639175830862, "timer/dataset_train_avg": 0.00010212786129894798, "timer/dataset_train_min": 6.127357482910156e-05, "timer/dataset_train_max": 0.0002772808074951172, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.69372129440308, "timer/agent.train_frac": 0.6022942922800973, "timer/agent.train_avg": 0.11672721013850328, "timer/agent.train_min": 0.10273218154907227, "timer/agent.train_max": 0.2049243450164795, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26392388343811035, "timer/agent.report_frac": 0.000879719823425294, "timer/agent.report_avg": 0.13196194171905518, "timer/agent.report_min": 0.10318970680236816, "timer/agent.report_max": 0.1607341766357422, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.245208740234375e-05, "timer/dataset_eval_frac": 1.7483503374827545e-07, "timer/dataset_eval_avg": 5.245208740234375e-05, "timer/dataset_eval_min": 5.245208740234375e-05, "timer/dataset_eval_max": 5.245208740234375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63819649473018}
{"step": 518796, "episode/length": 413.0, "episode/score": 1010.0, "episode/reward_rate": 0.12560386473429952}
{"step": 520328, "episode/length": 382.0, "episode/score": 1000.0, "episode/reward_rate": 0.13315926892950392}
{"step": 521900, "episode/length": 392.0, "episode/score": 980.0, "episode/reward_rate": 0.12468193384223919}
{"step": 523800, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.72618408203125, "train/action_min": 0.0, "train/action_std": 4.159176009701144, "train/actor_opt_grad_norm": 0.009547782430966054, "train/actor_opt_grad_steps": 129080.0, "train/actor_opt_loss": 0.0003422245389218358, "train/adv_mag": 0.8916004912507149, "train/adv_max": 0.8640242491037615, "train/adv_mean": 0.002763243696632168, "train/adv_min": -0.5434518754962951, "train/adv_std": 0.04355118334774048, "train/cont_avg": 0.9981413810483871, "train/cont_loss_mean": 0.0005979991017220214, "train/cont_loss_std": 0.015544696491466543, "train/cont_neg_acc": 0.9371391098330341, "train/cont_neg_loss": 0.18388178019112397, "train/cont_pos_acc": 0.9999747326297145, "train/cont_pos_loss": 0.00020418590105888065, "train/cont_pred": 0.998203371801684, "train/cont_rate": 0.9981413810483871, "train/dyn_loss_mean": 2.945411851329188, "train/dyn_loss_std": 5.9877526098682035, "train/extr_critic_critic_opt_grad_norm": 1.471448237665238, "train/extr_critic_critic_opt_grad_steps": 129080.0, "train/extr_critic_critic_opt_loss": 1.43206871017333, "train/extr_critic_mag": 435.25638821509574, "train/extr_critic_max": 435.25638821509574, "train/extr_critic_mean": 203.72474217568674, "train/extr_critic_min": 0.13797441451780257, "train/extr_critic_std": 131.52172221522179, "train/extr_return_normed_mag": 1.5072222721192146, "train/extr_return_normed_max": 1.5072222721192146, "train/extr_return_normed_mean": 0.5138690252457896, "train/extr_return_normed_min": -0.020038166491975706, "train/extr_return_normed_std": 0.34672899919171485, "train/extr_return_rate": 0.9455196215260413, "train/extr_return_raw_mag": 585.5260866226688, "train/extr_return_raw_max": 585.5260866226688, "train/extr_return_raw_mean": 204.78394096128403, "train/extr_return_raw_min": 0.06412941431589124, "train/extr_return_raw_std": 132.95469296363092, "train/extr_reward_mag": 301.25324420928956, "train/extr_reward_max": 301.25324420928956, "train/extr_reward_mean": 1.06759525422127, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.153055754015522, "train/image_loss_mean": 0.9620660985669782, "train/image_loss_std": 0.8142820077557718, "train/model_loss_mean": 2.7923475773103776, "train/model_loss_std": 4.129957192943942, "train/model_opt_grad_norm": 9.488295478205528, "train/model_opt_grad_steps": 129080.0, "train/model_opt_loss": 2.7923475773103776, "train/policy_entropy_mag": 2.6761658345499346, "train/policy_entropy_max": 2.6761658345499346, "train/policy_entropy_mean": 0.722665031879179, "train/policy_entropy_min": 0.08019136796074529, "train/policy_entropy_std": 0.6793559289747669, "train/policy_logprob_mag": 7.495541009595318, "train/policy_logprob_max": -0.009489512521653407, "train/policy_logprob_mean": -0.7228322332905185, "train/policy_logprob_min": -7.495541009595318, "train/policy_logprob_std": 1.20910853416689, "train/policy_randomness_mag": 0.92588985466188, "train/policy_randomness_max": 0.92588985466188, "train/policy_randomness_mean": 0.25002494637043243, "train/policy_randomness_min": 0.027744309748372723, "train/policy_randomness_std": 0.23504102460799678, "train/post_ent_mag": 63.66454526839718, "train/post_ent_max": 63.66454526839718, "train/post_ent_mean": 40.80597192087481, "train/post_ent_min": 11.424729617949454, "train/post_ent_std": 5.5740340478958625, "train/prior_ent_mag": 85.36729701872795, "train/prior_ent_max": 85.36729701872795, "train/prior_ent_mean": 43.77145809050529, "train/prior_ent_min": 14.062132275489068, "train/prior_ent_std": 7.731964009807956, "train/rep_loss_mean": 2.945411851329188, "train/rep_loss_std": 5.9877526098682035, "train/reward_avg": 1.2503780241935485, "train/reward_loss_mean": 0.06243636555248691, "train/reward_loss_std": 0.22862596617590997, "train/reward_max_data": 257.2258064516129, "train/reward_max_pred": 215.4526992059523, "train/reward_neg_acc": 0.9827796190015732, "train/reward_neg_loss": 0.0058617161827222, "train/reward_pos_acc": 0.9949840826372947, "train/reward_pos_loss": 0.6223515829732341, "train/reward_pred": 1.135296151330394, "train/reward_rate": 0.09205519153225807, "train_stats/mean_log_entropy": 0.5248158772786459, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.426920375204645e-05, "report/cont_loss_std": 0.00089445331832394, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.02838999591767788, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.550993475684663e-06, "report/cont_pred": 0.9990442395210266, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.9316067695617676, "report/dyn_loss_std": 5.9337615966796875, "report/image_loss_mean": 0.9661824703216553, "report/image_loss_std": 0.8566704988479614, "report/model_loss_mean": 2.777080774307251, "report/model_loss_std": 4.090664863586426, "report/post_ent_mag": 65.33905792236328, "report/post_ent_max": 65.33905792236328, "report/post_ent_mean": 40.355865478515625, "report/post_ent_min": 10.687398910522461, "report/post_ent_std": 6.340590000152588, "report/prior_ent_mag": 85.48976135253906, "report/prior_ent_max": 85.48976135253906, "report/prior_ent_mean": 43.36609649658203, "report/prior_ent_min": 11.36390495300293, "report/prior_ent_std": 8.207401275634766, "report/rep_loss_mean": 2.9316067695617676, "report/rep_loss_std": 5.9337615966796875, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.05190001428127289, "report/reward_loss_std": 0.19901524484157562, "report/reward_max_data": 20.0, "report/reward_max_pred": 20.002553939819336, "report/reward_neg_acc": 0.9851537942886353, "report/reward_neg_loss": 0.006111712660640478, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5849663019180298, "report/reward_pred": 0.771731972694397, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01486919540911913, "eval/cont_loss_std": 0.2879924774169922, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.7675065994262695, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.003842836245894432, "eval/cont_pred": 0.9970057606697083, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.3905029296875, "eval/dyn_loss_std": 9.925394058227539, "eval/image_loss_mean": 2.6602072715759277, "eval/image_loss_std": 2.897611379623413, "eval/model_loss_mean": 8.740845680236816, "eval/model_loss_std": 8.581231117248535, "eval/post_ent_mag": 65.33905792236328, "eval/post_ent_max": 65.33905792236328, "eval/post_ent_mean": 41.58430480957031, "eval/post_ent_min": 22.56509017944336, "eval/post_ent_std": 4.951150894165039, "eval/prior_ent_mag": 85.48976135253906, "eval/prior_ent_max": 85.48976135253906, "eval/prior_ent_mean": 46.40316390991211, "eval/prior_ent_min": 23.585779190063477, "eval/prior_ent_std": 7.3596978187561035, "eval/rep_loss_mean": 9.3905029296875, "eval/rep_loss_std": 9.925394058227539, "eval/reward_avg": 1.201171875, "eval/reward_loss_mean": 0.43146735429763794, "eval/reward_loss_std": 1.9300187826156616, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 19.878067016601562, "eval/reward_neg_acc": 0.9490587115287781, "eval/reward_neg_loss": 0.05917298421263695, "eval/reward_pos_acc": 0.719008207321167, "eval/reward_pos_loss": 3.209829330444336, "eval/reward_pred": 0.8762854337692261, "eval/reward_rate": 0.1181640625, "replay/size": 162381.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.970371530279759e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3665763305614682e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9570481777191, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 395.97620248794556, "timer/replay._sample_frac": 1.3201096786808517, "timer/replay._sample_avg": 0.01601845479320168, "timer/replay._sample_min": 0.00042700767517089844, "timer/replay._sample_max": 0.05472993850708008, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.734023809432983, "timer/env.step_frac": 0.022449960253786722, "timer/env.step_avg": 0.004358591462416171, "timer/env.step_min": 0.002088308334350586, "timer/env.step_max": 0.03254342079162598, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.12358021736145, "timer/agent.policy_frac": 0.3704649745436978, "timer/agent.policy_avg": 0.07192464738987796, "timer/agent.policy_min": 0.002965211868286133, "timer/agent.policy_max": 0.16234803199768066, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15932297706604004, "timer/dataset_train_frac": 0.0005311526367989995, "timer/dataset_train_avg": 0.00010312166800390941, "timer/dataset_train_min": 6.0558319091796875e-05, "timer/dataset_train_max": 0.002515554428100586, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.80039477348328, "timer/agent.train_frac": 0.6027542805607365, "timer/agent.train_avg": 0.1170229092385005, "timer/agent.train_min": 0.10218644142150879, "timer/agent.train_max": 0.25156521797180176, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20202183723449707, "timer/agent.report_frac": 0.0006735025513212905, "timer/agent.report_avg": 0.10101091861724854, "timer/agent.report_min": 0.09602212905883789, "timer/agent.report_max": 0.10599970817565918, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.935264587402344e-05, "timer/dataset_eval_frac": 1.645323761313416e-07, "timer/dataset_eval_avg": 4.935264587402344e-05, "timer/dataset_eval_min": 4.935264587402344e-05, "timer/dataset_eval_max": 4.935264587402344e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09522509574890137, "timer/agent.save_frac": 0.0003174624377970349, "timer/agent.save_avg": 0.09522509574890137, "timer/agent.save_min": 0.09522509574890137, "timer/agent.save_max": 0.09522509574890137, "fps": 20.601786422979693}
{"step": 523872, "episode/length": 492.0, "episode/score": 1120.0, "episode/reward_rate": 0.12778904665314403}
{"step": 525632, "episode/length": 439.0, "episode/score": 1040.0, "episode/reward_rate": 0.125}
{"step": 527160, "episode/length": 381.0, "episode/score": 1010.0, "episode/reward_rate": 0.13612565445026178}
{"step": 529408, "episode/length": 561.0, "episode/score": 1120.0, "episode/reward_rate": 0.1103202846975089}
{"step": 529988, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.573611569094968, "train/action_min": 0.0, "train/action_std": 4.229502989100172, "train/actor_opt_grad_norm": 0.009007611565969208, "train/actor_opt_grad_steps": 130625.0, "train/actor_opt_loss": 0.0003388512840702587, "train/adv_mag": 0.9439749051998187, "train/adv_max": 0.9228168026386917, "train/adv_mean": 0.003135688842354733, "train/adv_min": -0.5627602302021795, "train/adv_std": 0.04418884537049702, "train/cont_avg": 0.9980722402597403, "train/cont_loss_mean": 0.000618334199751873, "train/cont_loss_std": 0.016471656061198253, "train/cont_neg_acc": 0.9108527138713718, "train/cont_neg_loss": 0.2354303103602909, "train/cont_pos_acc": 0.9999491386599355, "train/cont_pos_loss": 0.00020086522182813154, "train/cont_pred": 0.998099292253519, "train/cont_rate": 0.9980722402597403, "train/dyn_loss_mean": 2.8638364200468187, "train/dyn_loss_std": 6.005446056266884, "train/extr_critic_critic_opt_grad_norm": 1.4969530852584096, "train/extr_critic_critic_opt_grad_steps": 130625.0, "train/extr_critic_critic_opt_loss": 1.4667016879304664, "train/extr_critic_mag": 440.15601616401176, "train/extr_critic_max": 440.15601616401176, "train/extr_critic_mean": 209.08049546278917, "train/extr_critic_min": 0.16629787466742776, "train/extr_critic_std": 135.94150567983652, "train/extr_return_normed_mag": 1.5533349196632187, "train/extr_return_normed_max": 1.5533349196632187, "train/extr_return_normed_mean": 0.5221707774447156, "train/extr_return_normed_min": -0.018548292966891956, "train/extr_return_normed_std": 0.3537780441247024, "train/extr_return_rate": 0.941460410108814, "train/extr_return_raw_mag": 611.094136622045, "train/extr_return_raw_max": 611.094136622045, "train/extr_return_raw_mean": 210.29891918231914, "train/extr_return_raw_min": 0.15626117015331561, "train/extr_return_raw_std": 137.50050740427784, "train/extr_reward_mag": 314.2421270098005, "train/extr_reward_max": 314.2421270098005, "train/extr_reward_mean": 1.0863765493615882, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.610347096022073, "train/image_loss_mean": 0.9391879706413715, "train/image_loss_std": 0.79844205836197, "train/model_loss_mean": 2.7194258733229204, "train/model_loss_std": 4.128654323615037, "train/model_opt_grad_norm": 9.597927790183526, "train/model_opt_grad_steps": 130625.0, "train/model_opt_loss": 2.7194258733229204, "train/policy_entropy_mag": 2.678665932122763, "train/policy_entropy_max": 2.678665932122763, "train/policy_entropy_mean": 0.7364307365247181, "train/policy_entropy_min": 0.08019131630078538, "train/policy_entropy_std": 0.6892804193806339, "train/policy_logprob_mag": 7.495541266032627, "train/policy_logprob_max": -0.009489545290201129, "train/policy_logprob_mean": -0.736054356609072, "train/policy_logprob_min": -7.495541266032627, "train/policy_logprob_std": 1.214957579389795, "train/policy_randomness_mag": 0.9267548322677612, "train/policy_randomness_max": 0.9267548322677612, "train/policy_randomness_mean": 0.25478755489185256, "train/policy_randomness_min": 0.02774429196709549, "train/policy_randomness_std": 0.2384746643629941, "train/post_ent_mag": 63.96635060496145, "train/post_ent_max": 63.96635060496145, "train/post_ent_mean": 40.72075638213715, "train/post_ent_min": 11.868056012438489, "train/post_ent_std": 5.555210463412396, "train/prior_ent_mag": 85.39517429896763, "train/prior_ent_max": 85.39517429896763, "train/prior_ent_mean": 43.64619455709086, "train/prior_ent_min": 14.504004397949615, "train/prior_ent_std": 7.728745206609949, "train/rep_loss_mean": 2.8638364200468187, "train/rep_loss_std": 6.005446056266884, "train/reward_avg": 1.2266005478896105, "train/reward_loss_mean": 0.061317710060771406, "train/reward_loss_std": 0.21812823105168033, "train/reward_max_data": 245.06493506493507, "train/reward_max_pred": 218.72596016797152, "train/reward_neg_acc": 0.9827765930782665, "train/reward_neg_loss": 0.005628092476777587, "train/reward_pos_acc": 0.9967529998197184, "train/reward_pos_loss": 0.6085037252345642, "train/reward_pred": 1.1419205549475435, "train/reward_rate": 0.09240564123376624, "train_stats/mean_log_entropy": 0.666248194873333, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 6.965927241253667e-06, "report/cont_loss_std": 0.00014042595284990966, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0025199453812092543, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.048158194156713e-06, "report/cont_pred": 0.9980497360229492, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7442479133605957, "report/dyn_loss_std": 5.507061004638672, "report/image_loss_mean": 0.8349181413650513, "report/image_loss_std": 0.6974136829376221, "report/model_loss_mean": 2.559363842010498, "report/model_loss_std": 3.75462007522583, "report/post_ent_mag": 66.61811828613281, "report/post_ent_max": 66.61811828613281, "report/post_ent_mean": 40.94077682495117, "report/post_ent_min": 9.410491943359375, "report/post_ent_std": 5.843165874481201, "report/prior_ent_mag": 85.44381713867188, "report/prior_ent_max": 85.44381713867188, "report/prior_ent_mean": 43.99202346801758, "report/prior_ent_min": 11.922394752502441, "report/prior_ent_std": 7.94992733001709, "report/rep_loss_mean": 2.7442479133605957, "report/rep_loss_std": 5.507061004638672, "report/reward_avg": 2.587890625, "report/reward_loss_mean": 0.07789000868797302, "report/reward_loss_std": 0.24845018982887268, "report/reward_max_data": 1000.0, "report/reward_max_pred": 453.2655334472656, "report/reward_neg_acc": 0.9801761507987976, "report/reward_neg_loss": 0.009297267533838749, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6148056387901306, "report/reward_pred": 1.6496784687042236, "report/reward_rate": 0.11328125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012716825120151043, "eval/cont_loss_std": 0.28072577714920044, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.3105692863464355, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0003922602627426386, "eval/cont_pred": 0.9996248483657837, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 5.85791015625, "eval/dyn_loss_std": 8.148310661315918, "eval/image_loss_mean": 1.3738467693328857, "eval/image_loss_std": 1.6802963018417358, "eval/model_loss_mean": 5.129461288452148, "eval/model_loss_std": 6.150710582733154, "eval/post_ent_mag": 66.61811828613281, "eval/post_ent_max": 66.61811828613281, "eval/post_ent_mean": 40.636356353759766, "eval/post_ent_min": 10.150833129882812, "eval/post_ent_std": 5.464157581329346, "eval/prior_ent_mag": 85.44381713867188, "eval/prior_ent_max": 85.44381713867188, "eval/prior_ent_mean": 44.228004455566406, "eval/prior_ent_min": 10.714874267578125, "eval/prior_ent_std": 7.879630088806152, "eval/rep_loss_mean": 5.85791015625, "eval/rep_loss_std": 8.148310661315918, "eval/reward_avg": 2.51953125, "eval/reward_loss_mean": 0.22815144062042236, "eval/reward_loss_std": 1.1338739395141602, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 420.08905029296875, "eval/reward_neg_acc": 0.9430449604988098, "eval/reward_neg_loss": 0.051217079162597656, "eval/reward_pos_acc": 0.8648648858070374, "eval/reward_pos_loss": 1.6834765672683716, "eval/reward_pred": 1.6001313924789429, "eval/reward_rate": 0.1083984375, "replay/size": 163928.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.039617024318742e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3668034719357431e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0492413043976, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 397.99226808547974, "timer/replay._sample_frac": 1.3264231775934394, "timer/replay._sample_avg": 0.016079196351223325, "timer/replay._sample_min": 0.0005059242248535156, "timer/replay._sample_max": 0.05573248863220215, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.787365913391113, "timer/env.step_frac": 0.022620840112391367, "timer/env.step_avg": 0.004387437565217268, "timer/env.step_min": 0.002304553985595703, "timer/env.step_max": 0.028900146484375, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.16601848602295, "timer/agent.policy_frac": 0.3704925831598618, "timer/agent.policy_avg": 0.07185909404397088, "timer/agent.policy_min": 0.003011465072631836, "timer/agent.policy_max": 0.08475351333618164, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1610572338104248, "timer/dataset_train_frac": 0.0005367693419595536, "timer/dataset_train_avg": 0.00010410939483543944, "timer/dataset_train_min": 5.984306335449219e-05, "timer/dataset_train_max": 0.0014004707336425781, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.68952250480652, "timer/agent.train_frac": 0.6021995647091086, "timer/agent.train_avg": 0.11679994990614513, "timer/agent.train_min": 0.10388779640197754, "timer/agent.train_max": 0.20425748825073242, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2632334232330322, "timer/agent.report_frac": 0.0008773007459998341, "timer/agent.report_avg": 0.1316167116165161, "timer/agent.report_min": 0.09897446632385254, "timer/agent.report_max": 0.1642589569091797, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.984306335449219e-05, "timer/dataset_eval_frac": 1.9944414154935947e-07, "timer/dataset_eval_avg": 5.984306335449219e-05, "timer/dataset_eval_min": 5.984306335449219e-05, "timer/dataset_eval_max": 5.984306335449219e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.622004386135927}
{"step": 531056, "episode/length": 411.0, "episode/score": 1040.0, "episode/reward_rate": 0.13349514563106796}
{"step": 532784, "episode/length": 431.0, "episode/score": 1040.0, "episode/reward_rate": 0.12731481481481483}
{"step": 534592, "episode/length": 451.0, "episode/score": 1010.0, "episode/reward_rate": 0.11504424778761062}
{"step": 536172, "episode/length": 394.0, "episode/score": 1000.0, "episode/reward_rate": 0.12658227848101267}
{"step": 536176, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.622579857610887, "train/action_min": 0.0, "train/action_std": 4.183437316648422, "train/actor_opt_grad_norm": 0.008938618710324649, "train/actor_opt_grad_steps": 132170.0, "train/actor_opt_loss": 0.00018486590232339128, "train/adv_mag": 0.810308864135896, "train/adv_max": 0.765928539633751, "train/adv_mean": 0.0025920876067527477, "train/adv_min": -0.534132570028305, "train/adv_std": 0.03964022936960382, "train/cont_avg": 0.9980531754032258, "train/cont_loss_mean": 0.0005425204175550838, "train/cont_loss_std": 0.014107986134812593, "train/cont_neg_acc": 0.9510948914681038, "train/cont_neg_loss": 0.16248961268476197, "train/cont_pos_acc": 0.9999304548386605, "train/cont_pos_loss": 0.00020624292021610604, "train/cont_pred": 0.998042514247279, "train/cont_rate": 0.9980531754032258, "train/dyn_loss_mean": 2.8585087668511173, "train/dyn_loss_std": 5.9890709938541535, "train/extr_critic_critic_opt_grad_norm": 1.5162546438555564, "train/extr_critic_critic_opt_grad_steps": 132170.0, "train/extr_critic_critic_opt_loss": 1.489866102895429, "train/extr_critic_mag": 448.02176080519155, "train/extr_critic_max": 448.02176080519155, "train/extr_critic_mean": 221.1559336016255, "train/extr_critic_min": 0.336261692354756, "train/extr_critic_std": 139.89398720033708, "train/extr_return_normed_mag": 1.3874401196356743, "train/extr_return_normed_max": 1.3874401196356743, "train/extr_return_normed_mean": 0.5359163718838845, "train/extr_return_normed_min": -0.01638024247611963, "train/extr_return_normed_std": 0.3510486823897208, "train/extr_return_rate": 0.9477566830573544, "train/extr_return_raw_mag": 564.0269082346271, "train/extr_return_raw_max": 564.0269082346271, "train/extr_return_raw_mean": 222.1965359595514, "train/extr_return_raw_min": 0.3928306244043333, "train/extr_return_raw_std": 140.97034099948021, "train/extr_reward_mag": 244.96855292166433, "train/extr_reward_max": 244.96855292166433, "train/extr_reward_mean": 1.0638977462245571, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.01312066970333, "train/image_loss_mean": 0.9199622100399386, "train/image_loss_std": 0.7997547472676924, "train/model_loss_mean": 2.6991795093782485, "train/model_loss_std": 4.115546538752894, "train/model_opt_grad_norm": 9.415645368637577, "train/model_opt_grad_steps": 132170.0, "train/model_opt_loss": 2.6991795093782485, "train/policy_entropy_mag": 2.6536245745997276, "train/policy_entropy_max": 2.6536245745997276, "train/policy_entropy_mean": 0.6826795114624885, "train/policy_entropy_min": 0.08019122106413687, "train/policy_entropy_std": 0.6640838375014644, "train/policy_logprob_mag": 7.495541689472814, "train/policy_logprob_max": -0.009489545328242163, "train/policy_logprob_mean": -0.6824795663356781, "train/policy_logprob_min": -7.495541689472814, "train/policy_logprob_std": 1.1945632534642374, "train/policy_randomness_mag": 0.9180911156439012, "train/policy_randomness_max": 0.9180911156439012, "train/policy_randomness_mean": 0.23619090876271648, "train/policy_randomness_min": 0.027744259000305208, "train/policy_randomness_std": 0.22975724656735697, "train/post_ent_mag": 63.979081529186615, "train/post_ent_max": 63.979081529186615, "train/post_ent_mean": 40.63386764526367, "train/post_ent_min": 11.556879665005592, "train/post_ent_std": 5.553134244488132, "train/prior_ent_mag": 85.3478014546056, "train/prior_ent_max": 85.3478014546056, "train/prior_ent_mean": 43.51714128063571, "train/prior_ent_min": 14.028683047140799, "train/prior_ent_std": 7.722616220289661, "train/rep_loss_mean": 2.8585087668511173, "train/rep_loss_std": 5.9890709938541535, "train/reward_avg": 1.1975806451612903, "train/reward_loss_mean": 0.06356949611536918, "train/reward_loss_std": 0.2252167425809368, "train/reward_max_data": 181.48387096774192, "train/reward_max_pred": 139.649191136514, "train/reward_neg_acc": 0.9833266277467051, "train/reward_neg_loss": 0.00513352112874629, "train/reward_pos_acc": 0.996469348092233, "train/reward_pos_loss": 0.6147666788870289, "train/reward_pred": 1.1082024339706666, "train/reward_rate": 0.09615045362903225, "train_stats/mean_log_entropy": 0.5655269548296928, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0010579617228358984, "report/cont_loss_std": 0.033362358808517456, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.0680948495864868, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4915025531081483e-05, "report/cont_pred": 0.9996495246887207, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.4975240230560303, "report/dyn_loss_std": 6.292148590087891, "report/image_loss_mean": 1.1095428466796875, "report/image_loss_std": 0.9904175996780396, "report/model_loss_mean": 3.268040657043457, "report/model_loss_std": 4.367053031921387, "report/post_ent_mag": 65.74606323242188, "report/post_ent_max": 65.74606323242188, "report/post_ent_mean": 40.49610900878906, "report/post_ent_min": 9.280044555664062, "report/post_ent_std": 5.892971515655518, "report/prior_ent_mag": 85.65809631347656, "report/prior_ent_max": 85.65809631347656, "report/prior_ent_mean": 43.68355178833008, "report/prior_ent_min": 12.606760025024414, "report/prior_ent_std": 7.844944953918457, "report/rep_loss_mean": 3.4975240230560303, "report/rep_loss_std": 6.292148590087891, "report/reward_avg": 0.859375, "report/reward_loss_mean": 0.0589253306388855, "report/reward_loss_std": 0.23807094991207123, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.990997314453125, "report/reward_neg_acc": 0.9797224998474121, "report/reward_neg_loss": 0.0038094751071184874, "report/reward_pos_acc": 0.9885057210922241, "report/reward_pos_loss": 0.6525294184684753, "report/reward_pred": 0.805039644241333, "report/reward_rate": 0.0849609375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.006397471763193607, "eval/cont_loss_std": 0.14285506308078766, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.1296966075897217, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00028534073499031365, "eval/cont_pred": 0.999627947807312, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.13890266418457, "eval/dyn_loss_std": 9.564531326293945, "eval/image_loss_mean": 2.4546005725860596, "eval/image_loss_std": 2.3094561100006104, "eval/model_loss_mean": 8.254837036132812, "eval/model_loss_std": 7.607320785522461, "eval/post_ent_mag": 67.1383056640625, "eval/post_ent_max": 67.1383056640625, "eval/post_ent_mean": 41.63128662109375, "eval/post_ent_min": 12.641746520996094, "eval/post_ent_std": 5.053733825683594, "eval/prior_ent_mag": 85.65809631347656, "eval/prior_ent_max": 85.65809631347656, "eval/prior_ent_mean": 46.45075988769531, "eval/prior_ent_min": 25.423059463500977, "eval/prior_ent_std": 7.161067485809326, "eval/rep_loss_mean": 9.13890266418457, "eval/rep_loss_std": 9.564531326293945, "eval/reward_avg": 1.552734375, "eval/reward_loss_mean": 0.3104967772960663, "eval/reward_loss_std": 1.5725247859954834, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 498.1481628417969, "eval/reward_neg_acc": 0.9452953934669495, "eval/reward_neg_loss": 0.07280410826206207, "eval/reward_pos_acc": 0.8363636136054993, "eval/reward_pos_loss": 2.2855067253112793, "eval/reward_pred": 1.35103178024292, "eval/reward_rate": 0.107421875, "replay/size": 165475.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.053487529890261e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3686143434964693e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7136335372924805e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.01120257377625, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 400.4402017593384, "timer/replay._sample_frac": 1.3347508303822937, "timer/replay._sample_avg": 0.016178094770496865, "timer/replay._sample_min": 0.0004532337188720703, "timer/replay._sample_max": 0.03933072090148926, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.778866291046143, "timer/env.step_frac": 0.022595377215552943, "timer/env.step_avg": 0.00438194330384366, "timer/env.step_min": 0.0024428367614746094, "timer/env.step_max": 0.03542757034301758, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.02090072631836, "timer/agent.policy_frac": 0.37005585049450623, "timer/agent.policy_avg": 0.07176528812302414, "timer/agent.policy_min": 0.0028121471405029297, "timer/agent.policy_max": 0.0894773006439209, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15673446655273438, "timer/dataset_train_frac": 0.0005224287133551006, "timer/dataset_train_avg": 0.00010131510442969256, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.00020360946655273438, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.83849787712097, "timer/agent.train_frac": 0.6027724842463197, "timer/agent.train_avg": 0.11689624943576016, "timer/agent.train_min": 0.10361003875732422, "timer/agent.train_max": 0.20136547088623047, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26589298248291016, "timer/agent.report_frac": 0.0008862768463371763, "timer/agent.report_avg": 0.13294649124145508, "timer/agent.report_min": 0.10359382629394531, "timer/agent.report_max": 0.16229915618896484, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.6743621826171875e-05, "timer/dataset_eval_frac": 1.8913834329975713e-07, "timer/dataset_eval_avg": 5.6743621826171875e-05, "timer/dataset_eval_min": 5.6743621826171875e-05, "timer/dataset_eval_max": 5.6743621826171875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.624597209973857}
{"step": 537868, "episode/length": 423.0, "episode/score": 1040.0, "episode/reward_rate": 0.12971698113207547}
{"step": 539620, "episode/length": 437.0, "episode/score": 1040.0, "episode/reward_rate": 0.12557077625570776}
{"step": 541208, "episode/length": 396.0, "episode/score": 1010.0, "episode/reward_rate": 0.1309823677581864}
{"step": 542356, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.570636303393872, "train/action_min": 0.0, "train/action_std": 4.23859835599924, "train/actor_opt_grad_norm": 0.009008514536121353, "train/actor_opt_grad_steps": 133715.0, "train/actor_opt_loss": -0.00016757359934345387, "train/adv_mag": 0.8871958025477149, "train/adv_max": 0.8622457486661997, "train/adv_mean": 0.0020629145571086616, "train/adv_min": -0.5418546203669016, "train/adv_std": 0.04221349496200874, "train/cont_avg": 0.9981102881493507, "train/cont_loss_mean": 0.0006184173319947472, "train/cont_loss_std": 0.016212168588303124, "train/cont_neg_acc": 0.945952381832259, "train/cont_neg_loss": 0.19509721337946806, "train/cont_pos_acc": 0.9999173604822779, "train/cont_pos_loss": 0.0002132522899819663, "train/cont_pred": 0.9981236252691839, "train/cont_rate": 0.9981102881493507, "train/dyn_loss_mean": 2.8389493536639523, "train/dyn_loss_std": 5.984667347623156, "train/extr_critic_critic_opt_grad_norm": 1.4910490195472519, "train/extr_critic_critic_opt_grad_steps": 133715.0, "train/extr_critic_critic_opt_loss": 1.4797599300161584, "train/extr_critic_mag": 458.9487163989575, "train/extr_critic_max": 458.9487163989575, "train/extr_critic_mean": 224.58747635878527, "train/extr_critic_min": 0.0880069113396979, "train/extr_critic_std": 143.98649260285612, "train/extr_return_normed_mag": 1.4681896520899487, "train/extr_return_normed_max": 1.4681896520899487, "train/extr_return_normed_mean": 0.5328492748659927, "train/extr_return_normed_min": -0.01588443154015566, "train/extr_return_normed_std": 0.3540038758671129, "train/extr_return_rate": 0.9429087669818432, "train/extr_return_raw_mag": 609.4030686415636, "train/extr_return_raw_max": 609.4030686415636, "train/extr_return_raw_mean": 225.43470863243203, "train/extr_return_raw_min": 0.176175501271659, "train/extr_return_raw_std": 145.31799281727183, "train/extr_reward_mag": 326.3925526111157, "train/extr_reward_max": 326.3925526111157, "train/extr_reward_mean": 1.128735431603023, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.873459007832912, "train/image_loss_mean": 0.9081067744787638, "train/image_loss_std": 0.789558436189379, "train/model_loss_mean": 2.674562873778405, "train/model_loss_std": 4.102741143920205, "train/model_opt_grad_norm": 9.32084872815516, "train/model_opt_grad_steps": 133715.0, "train/model_opt_loss": 2.674562873778405, "train/policy_entropy_mag": 2.6353989731181753, "train/policy_entropy_max": 2.6353989731181753, "train/policy_entropy_mean": 0.70069740383656, "train/policy_entropy_min": 0.0801912151373826, "train/policy_entropy_std": 0.6620475092491547, "train/policy_logprob_mag": 7.495540913049277, "train/policy_logprob_max": -0.009489546082430071, "train/policy_logprob_mean": -0.6999753438807154, "train/policy_logprob_min": -7.495540913049277, "train/policy_logprob_std": 1.2003998168103107, "train/policy_randomness_mag": 0.9117854891659377, "train/policy_randomness_max": 0.9117854891659377, "train/policy_randomness_mean": 0.24242466939734175, "train/policy_randomness_min": 0.027744256988071002, "train/policy_randomness_std": 0.22905272303463578, "train/post_ent_mag": 63.91836733632273, "train/post_ent_max": 63.91836733632273, "train/post_ent_mean": 40.46174886629179, "train/post_ent_min": 11.350370258479924, "train/post_ent_std": 5.539113797150649, "train/prior_ent_mag": 85.4347755630295, "train/prior_ent_max": 85.4347755630295, "train/prior_ent_mean": 43.317815830181175, "train/prior_ent_min": 13.907425756578322, "train/prior_ent_std": 7.750807375102848, "train/rep_loss_mean": 2.8389493536639523, "train/rep_loss_std": 5.984667347623156, "train/reward_avg": 1.3141106939935066, "train/reward_loss_mean": 0.06246806852906555, "train/reward_loss_std": 0.2215775367501494, "train/reward_max_data": 261.5584415584416, "train/reward_max_pred": 218.5240694516665, "train/reward_neg_acc": 0.9836249409557937, "train/reward_neg_loss": 0.00512869135580969, "train/reward_pos_acc": 0.9961691022693336, "train/reward_pos_loss": 0.6102828979492188, "train/reward_pred": 1.201327770561367, "train/reward_rate": 0.09517045454545454, "train_stats/mean_log_entropy": 0.5545439223448435, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.5047578472149326e-06, "report/cont_loss_std": 2.969273555208929e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.000505303090903908, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0122863614014932e-06, "report/cont_pred": 0.9990229606628418, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.844665765762329, "report/dyn_loss_std": 6.198886394500732, "report/image_loss_mean": 0.9985476732254028, "report/image_loss_std": 0.7340095043182373, "report/model_loss_mean": 2.7397119998931885, "report/model_loss_std": 4.201289176940918, "report/post_ent_mag": 66.98870849609375, "report/post_ent_max": 66.98870849609375, "report/post_ent_mean": 40.98748779296875, "report/post_ent_min": 10.533506393432617, "report/post_ent_std": 5.746786117553711, "report/prior_ent_mag": 85.65858459472656, "report/prior_ent_max": 85.65858459472656, "report/prior_ent_mean": 44.029029846191406, "report/prior_ent_min": 13.865348815917969, "report/prior_ent_std": 7.631373882293701, "report/rep_loss_mean": 2.844665765762329, "report/rep_loss_std": 6.198886394500732, "report/reward_avg": 1.5234375, "report/reward_loss_mean": 0.0343632847070694, "report/reward_loss_std": 0.1389436274766922, "report/reward_max_data": 500.0, "report/reward_max_pred": 497.39093017578125, "report/reward_neg_acc": 0.9886128306388855, "report/reward_neg_loss": 0.0018728352151811123, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5754972696304321, "report/reward_pred": 1.490217685699463, "report/reward_rate": 0.056640625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.004541098140180111, "eval/cont_loss_std": 0.10940473526716232, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.2092466354370117, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.001001317403279245, "eval/cont_pred": 0.9974399209022522, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.647180557250977, "eval/dyn_loss_std": 9.659070014953613, "eval/image_loss_mean": 2.402674674987793, "eval/image_loss_std": 2.37111496925354, "eval/model_loss_mean": 7.8044114112854, "eval/model_loss_std": 7.8033342361450195, "eval/post_ent_mag": 66.98870849609375, "eval/post_ent_max": 66.98870849609375, "eval/post_ent_mean": 40.82438659667969, "eval/post_ent_min": 19.0750789642334, "eval/post_ent_std": 4.820864677429199, "eval/prior_ent_mag": 85.65858459472656, "eval/prior_ent_max": 85.65858459472656, "eval/prior_ent_mean": 45.65755081176758, "eval/prior_ent_min": 22.041622161865234, "eval/prior_ent_std": 7.421983242034912, "eval/rep_loss_mean": 8.647180557250977, "eval/rep_loss_std": 9.659070014953613, "eval/reward_avg": 1.123046875, "eval/reward_loss_mean": 0.20888766646385193, "eval/reward_loss_std": 1.2360258102416992, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007591247558594, "eval/reward_neg_acc": 0.9581958055496216, "eval/reward_neg_loss": 0.014485348016023636, "eval/reward_pos_acc": 0.8956521153450012, "eval/reward_pos_loss": 1.7455114126205444, "eval/reward_pred": 0.9416691660881042, "eval/reward_rate": 0.1123046875, "replay/size": 167020.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.926391404037722e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3236378388883226e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.296401023864746e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0636398792267, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 387.2014853954315, "timer/replay._sample_frac": 1.290397882100201, "timer/replay._sample_avg": 0.01566349050952393, "timer/replay._sample_min": 0.00041747093200683594, "timer/replay._sample_max": 0.06626129150390625, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.7641990184783936, "timer/env.step_frac": 0.0225425480448112, "timer/env.step_avg": 0.004378122342057212, "timer/env.step_min": 0.002416372299194336, "timer/env.step_max": 0.02996969223022461, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.14163088798523, "timer/agent.policy_frac": 0.3703935302948364, "timer/agent.policy_avg": 0.0719363306718351, "timer/agent.policy_min": 0.0030755996704101562, "timer/agent.policy_max": 0.16033220291137695, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15488123893737793, "timer/dataset_train_frac": 0.0005161613016482652, "timer/dataset_train_avg": 0.00010024675659377212, "timer/dataset_train_min": 6.29425048828125e-05, "timer/dataset_train_max": 0.00025582313537597656, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.6863341331482, "timer/agent.train_frac": 0.6021600424692344, "timer/agent.train_avg": 0.11694908358132569, "timer/agent.train_min": 0.10345029830932617, "timer/agent.train_max": 0.27013087272644043, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2617156505584717, "timer/agent.report_frac": 0.000872200479417667, "timer/agent.report_avg": 0.13085782527923584, "timer/agent.report_min": 0.09519791603088379, "timer/agent.report_max": 0.1665177345275879, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.747245788574219e-05, "timer/dataset_eval_frac": 2.2486049263715968e-07, "timer/dataset_eval_avg": 6.747245788574219e-05, "timer/dataset_eval_min": 6.747245788574219e-05, "timer/dataset_eval_max": 6.747245788574219e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1595168113708496, "timer/agent.save_frac": 0.0005316099325964782, "timer/agent.save_avg": 0.1595168113708496, "timer/agent.save_min": 0.1595168113708496, "timer/agent.save_max": 0.1595168113708496, "fps": 20.594401828610213}
{"step": 542860, "episode/length": 412.0, "episode/score": 1040.0, "episode/reward_rate": 0.13317191283292978}
{"step": 544500, "episode/length": 409.0, "episode/score": 990.0, "episode/reward_rate": 0.12195121951219512}
{"step": 546724, "episode/length": 555.0, "episode/score": 940.0, "episode/reward_rate": 0.08093525179856115}
{"step": 548272, "episode/length": 386.0, "episode/score": 1000.0, "episode/reward_rate": 0.12919896640826872}
{"step": 548552, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.524419969128024, "train/action_min": 0.0, "train/action_std": 4.277720060656147, "train/actor_opt_grad_norm": 0.008254830177212435, "train/actor_opt_grad_steps": 135260.0, "train/actor_opt_loss": -7.824605520234458e-05, "train/adv_mag": 0.8243430632737375, "train/adv_max": 0.7927468242183808, "train/adv_mean": 0.0018085982471670685, "train/adv_min": -0.5269006699323654, "train/adv_std": 0.038095113977549534, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0004320617508504537, "train/cont_loss_std": 0.011358911416552602, "train/cont_neg_acc": 0.958333333625513, "train/cont_neg_loss": 0.11803388529020128, "train/cont_pos_acc": 0.9999305171351279, "train/cont_pos_loss": 0.00022430818617923487, "train/cont_pred": 0.9982007245863638, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.8298411461614794, "train/dyn_loss_std": 5.984831363924088, "train/extr_critic_critic_opt_grad_norm": 1.4801022156592338, "train/extr_critic_critic_opt_grad_steps": 135260.0, "train/extr_critic_critic_opt_loss": 1.4819670807930732, "train/extr_critic_mag": 455.6148494597404, "train/extr_critic_max": 455.6148494597404, "train/extr_critic_mean": 217.52715483634702, "train/extr_critic_min": 0.784919088117538, "train/extr_critic_std": 144.08468426119896, "train/extr_return_normed_mag": 1.3786941059174076, "train/extr_return_normed_max": 1.3786941059174076, "train/extr_return_normed_mean": 0.5120687652018763, "train/extr_return_normed_min": -0.015946966475777088, "train/extr_return_normed_std": 0.35198589140369047, "train/extr_return_rate": 0.941199646457549, "train/extr_return_raw_mag": 575.2557816043977, "train/extr_return_raw_max": 575.2557816043977, "train/extr_return_raw_mean": 218.2721243581464, "train/extr_return_raw_min": 0.7838798598599462, "train/extr_return_raw_std": 144.98829591812625, "train/extr_reward_mag": 302.51098731256303, "train/extr_reward_max": 302.51098731256303, "train/extr_reward_mean": 1.0399606270174826, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.641585917626657, "train/image_loss_mean": 0.9248058311400875, "train/image_loss_std": 0.7920495617774225, "train/model_loss_mean": 2.6848666960193266, "train/model_loss_std": 4.106918011942217, "train/model_opt_grad_norm": 9.423611970101634, "train/model_opt_grad_steps": 135260.0, "train/model_opt_loss": 2.6848666960193266, "train/policy_entropy_mag": 2.6394137782435263, "train/policy_entropy_max": 2.6394137782435263, "train/policy_entropy_mean": 0.7119198818360606, "train/policy_entropy_min": 0.080191260912726, "train/policy_entropy_std": 0.6654272260204438, "train/policy_logprob_mag": 7.4955414772033695, "train/policy_logprob_max": -0.0094895392235729, "train/policy_logprob_mean": -0.7112885686659044, "train/policy_logprob_min": -7.4955414772033695, "train/policy_logprob_std": 1.202789383549844, "train/policy_randomness_mag": 0.9131745165394198, "train/policy_randomness_max": 0.9131745165394198, "train/policy_randomness_mean": 0.2463073815068891, "train/policy_randomness_min": 0.027744272831947574, "train/policy_randomness_std": 0.2302220252252394, "train/post_ent_mag": 64.1088125413464, "train/post_ent_max": 64.1088125413464, "train/post_ent_mean": 40.453686695714154, "train/post_ent_min": 11.668991941021334, "train/post_ent_std": 5.5473381842336345, "train/prior_ent_mag": 85.57192166236139, "train/prior_ent_max": 85.57192166236139, "train/prior_ent_mean": 43.31542717718309, "train/prior_ent_min": 14.164319038391113, "train/prior_ent_std": 7.732639448104366, "train/rep_loss_mean": 2.8298411461614794, "train/rep_loss_std": 5.984831363924088, "train/reward_avg": 1.2310987903225807, "train/reward_loss_mean": 0.06172411050046644, "train/reward_loss_std": 0.2227743516045232, "train/reward_max_data": 247.09677419354838, "train/reward_max_pred": 198.74986911281462, "train/reward_neg_acc": 0.983613557584824, "train/reward_neg_loss": 0.0054068872419696665, "train/reward_pos_acc": 0.9959489876224149, "train/reward_pos_loss": 0.6108390204368099, "train/reward_pred": 1.1283225617101116, "train/reward_rate": 0.09330267137096775, "train_stats/mean_log_entropy": 0.6333291381597519, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.8107826349478273e-07, "report/cont_loss_std": 2.5464319151069503e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.606890666356776e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.5577246870179806e-07, "report/cont_pred": 0.9990233182907104, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.839996337890625, "report/dyn_loss_std": 6.014777183532715, "report/image_loss_mean": 0.9660557508468628, "report/image_loss_std": 0.7958081960678101, "report/model_loss_mean": 2.7087278366088867, "report/model_loss_std": 4.057977676391602, "report/post_ent_mag": 63.28681945800781, "report/post_ent_max": 63.28681945800781, "report/post_ent_mean": 40.40770721435547, "report/post_ent_min": 11.067152976989746, "report/post_ent_std": 6.043416500091553, "report/prior_ent_mag": 85.77013397216797, "report/prior_ent_max": 85.77013397216797, "report/prior_ent_mean": 43.14668273925781, "report/prior_ent_min": 12.757515907287598, "report/prior_ent_std": 7.9459547996521, "report/rep_loss_mean": 2.839996337890625, "report/rep_loss_std": 6.014777183532715, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.038673680275678635, "report/reward_loss_std": 0.14728888869285583, "report/reward_max_data": 500.0, "report/reward_max_pred": 495.7462463378906, "report/reward_neg_acc": 0.9854319095611572, "report/reward_neg_loss": 0.003502779873088002, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5751695036888123, "report/reward_pred": 1.07706618309021, "report/reward_rate": 0.0615234375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01976640336215496, "eval/cont_loss_std": 0.4819476008415222, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.739558219909668, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1667336113750935e-05, "eval/cont_pred": 0.9989999532699585, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 6.971177101135254, "eval/dyn_loss_std": 9.221096992492676, "eval/image_loss_mean": 1.679643988609314, "eval/image_loss_std": 1.9971741437911987, "eval/model_loss_mean": 6.196059226989746, "eval/model_loss_std": 7.2073283195495605, "eval/post_ent_mag": 63.28681945800781, "eval/post_ent_max": 63.28681945800781, "eval/post_ent_mean": 39.993995666503906, "eval/post_ent_min": 9.510119438171387, "eval/post_ent_std": 5.472739219665527, "eval/prior_ent_mag": 85.77013397216797, "eval/prior_ent_max": 85.77013397216797, "eval/prior_ent_mean": 43.955772399902344, "eval/prior_ent_min": 12.100055694580078, "eval/prior_ent_std": 7.912930011749268, "eval/rep_loss_mean": 6.971177101135254, "eval/rep_loss_std": 9.221096992492676, "eval/reward_avg": 1.083984375, "eval/reward_loss_mean": 0.3139421343803406, "eval/reward_loss_std": 1.7738250494003296, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008322715759277, "eval/reward_neg_acc": 0.9627601504325867, "eval/reward_neg_loss": 0.02775670774281025, "eval/reward_pos_acc": 0.792792797088623, "eval/reward_pos_loss": 2.667881965637207, "eval/reward_pred": 0.7822318077087402, "eval/reward_rate": 0.1083984375, "replay/size": 168569.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.926752936386e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3212010197057656e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.817941665649414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.13150668144226, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 386.6337938308716, "timer/replay._sample_frac": 1.2882146166721586, "timer/replay._sample_avg": 0.015600136936365057, "timer/replay._sample_min": 0.0005767345428466797, "timer/replay._sample_max": 0.0596623420715332, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.76332688331604, "timer/env.step_frac": 0.02253454480037177, "timer/env.step_avg": 0.004366253636743731, "timer/env.step_min": 0.002390623092651367, "timer/env.step_max": 0.0312960147857666, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.02845406532288, "timer/agent.policy_frac": 0.36993268481861785, "timer/agent.policy_avg": 0.07167750423842664, "timer/agent.policy_min": 0.003175020217895508, "timer/agent.policy_max": 0.0895242691040039, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15544795989990234, "timer/dataset_train_frac": 0.0005179328275751264, "timer/dataset_train_avg": 0.00010035375074235142, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.001169443130493164, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.98829007148743, "timer/agent.train_frac": 0.6030299586760389, "timer/agent.train_avg": 0.11684202070464005, "timer/agent.train_min": 0.10349559783935547, "timer/agent.train_max": 0.2017374038696289, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25924229621887207, "timer/agent.report_frac": 0.0008637623523278755, "timer/agent.report_avg": 0.12962114810943604, "timer/agent.report_min": 0.09736394882202148, "timer/agent.report_max": 0.16187834739685059, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.078315734863281e-05, "timer/dataset_eval_frac": 1.6920302006991138e-07, "timer/dataset_eval_avg": 5.078315734863281e-05, "timer/dataset_eval_min": 5.078315734863281e-05, "timer/dataset_eval_max": 5.078315734863281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.643130604259927}
{"step": 549816, "episode/length": 385.0, "episode/score": 1010.0, "episode/reward_rate": 0.13471502590673576}
{"step": 551392, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.12944162436548223}
{"step": 552956, "episode/length": 390.0, "episode/score": 500.0, "episode/reward_rate": 0.1278772378516624}
{"step": 554512, "episode/length": 388.0, "episode/score": 1010.0, "episode/reward_rate": 0.13367609254498714}
{"step": 554744, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.629297662550403, "train/action_min": 0.0, "train/action_std": 4.2385633084081835, "train/actor_opt_grad_norm": 0.008347364136528585, "train/actor_opt_grad_steps": 136810.0, "train/actor_opt_loss": 2.5549652571410868e-05, "train/adv_mag": 0.8282620881834338, "train/adv_max": 0.7820058663045206, "train/adv_mean": 0.0021922167666425887, "train/adv_min": -0.5530232818857316, "train/adv_std": 0.0388866888539445, "train/cont_avg": 0.9981539818548387, "train/cont_loss_mean": 0.0004949739415884863, "train/cont_loss_std": 0.013048318334507609, "train/cont_neg_acc": 0.9474637689797775, "train/cont_neg_loss": 0.19097283186117428, "train/cont_pos_acc": 0.9999368321511053, "train/cont_pos_loss": 0.00019811933091312434, "train/cont_pred": 0.998146273628358, "train/cont_rate": 0.9981539818548387, "train/dyn_loss_mean": 2.8544283113171978, "train/dyn_loss_std": 5.9487061162148755, "train/extr_critic_critic_opt_grad_norm": 1.5066957708328002, "train/extr_critic_critic_opt_grad_steps": 136810.0, "train/extr_critic_critic_opt_loss": 1.483598602971723, "train/extr_critic_mag": 462.4238287156628, "train/extr_critic_max": 462.4238287156628, "train/extr_critic_mean": 223.3142552529612, "train/extr_critic_min": 0.4184259945346463, "train/extr_critic_std": 146.94248932869203, "train/extr_return_normed_mag": 1.4036422917919775, "train/extr_return_normed_max": 1.4036422917919775, "train/extr_return_normed_mean": 0.5230048427658697, "train/extr_return_normed_min": -0.01598745762340484, "train/extr_return_normed_std": 0.35626616054965604, "train/extr_return_rate": 0.9441583133512927, "train/extr_return_raw_mag": 589.8307367140247, "train/extr_return_raw_max": 589.8307367140247, "train/extr_return_raw_mean": 224.22450502457158, "train/extr_return_raw_min": 0.41448661882670657, "train/extr_return_raw_std": 147.92253767444242, "train/extr_reward_mag": 311.10055867472005, "train/extr_reward_max": 311.10055867472005, "train/extr_reward_mean": 1.1014258519295723, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.351955924495574, "train/image_loss_mean": 0.9168366912872561, "train/image_loss_std": 0.7955064819705102, "train/model_loss_mean": 2.6909055879039148, "train/model_loss_std": 4.085839396138345, "train/model_opt_grad_norm": 9.284371588307042, "train/model_opt_grad_steps": 136810.0, "train/model_opt_loss": 2.6909055879039148, "train/policy_entropy_mag": 2.6485708759677027, "train/policy_entropy_max": 2.6485708759677027, "train/policy_entropy_mean": 0.7043543136888935, "train/policy_entropy_min": 0.08019126187409124, "train/policy_entropy_std": 0.6622468886836883, "train/policy_logprob_mag": 7.495541129573699, "train/policy_logprob_max": -0.009489509475327307, "train/policy_logprob_mean": -0.7040828374124343, "train/policy_logprob_min": -7.495541129573699, "train/policy_logprob_std": 1.2003730697016561, "train/policy_randomness_mag": 0.9163426545358473, "train/policy_randomness_max": 0.9163426545358473, "train/policy_randomness_mean": 0.24368987285321758, "train/policy_randomness_min": 0.02774427310834008, "train/policy_randomness_std": 0.22912170425538095, "train/post_ent_mag": 64.47098521571006, "train/post_ent_max": 64.47098521571006, "train/post_ent_mean": 40.34063393377489, "train/post_ent_min": 11.288635312357256, "train/post_ent_std": 5.657245171454645, "train/prior_ent_mag": 85.48267556467364, "train/prior_ent_max": 85.48267556467364, "train/prior_ent_mean": 43.22035372334142, "train/prior_ent_min": 13.77777579522902, "train/prior_ent_std": 7.828258016032557, "train/rep_loss_mean": 2.8544283113171978, "train/rep_loss_std": 5.9487061162148755, "train/reward_avg": 1.2561113911290323, "train/reward_loss_mean": 0.06091692812981144, "train/reward_loss_std": 0.21185549478377066, "train/reward_max_data": 237.74193548387098, "train/reward_max_pred": 205.91049663174536, "train/reward_neg_acc": 0.9837615193859224, "train/reward_neg_loss": 0.00537646425974315, "train/reward_pos_acc": 0.9978054727277448, "train/reward_pos_loss": 0.5958127148689762, "train/reward_pred": 1.1731249482400956, "train/reward_rate": 0.09409652217741936, "train_stats/mean_log_entropy": 0.49960069358348846, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.835824362700805e-06, "report/cont_loss_std": 0.00018848870240617543, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0003175107412971556, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.53311132939416e-06, "report/cont_pred": 0.999016284942627, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.990330696105957, "report/dyn_loss_std": 5.769729137420654, "report/image_loss_mean": 0.975397527217865, "report/image_loss_std": 0.7998998761177063, "report/model_loss_mean": 2.8204822540283203, "report/model_loss_std": 4.041445732116699, "report/post_ent_mag": 66.69134521484375, "report/post_ent_max": 66.69134521484375, "report/post_ent_mean": 40.783512115478516, "report/post_ent_min": 8.570542335510254, "report/post_ent_std": 6.206616401672363, "report/prior_ent_mag": 85.33364868164062, "report/prior_ent_max": 85.33364868164062, "report/prior_ent_mean": 43.81017303466797, "report/prior_ent_min": 10.710262298583984, "report/prior_ent_std": 8.096071243286133, "report/rep_loss_mean": 2.990330696105957, "report/rep_loss_std": 5.769729137420654, "report/reward_avg": 1.142578125, "report/reward_loss_mean": 0.0508786141872406, "report/reward_loss_std": 0.23275165259838104, "report/reward_max_data": 500.0, "report/reward_max_pred": 460.6080017089844, "report/reward_neg_acc": 0.9822361469268799, "report/reward_neg_loss": 0.0073824129067361355, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.672160267829895, "report/reward_pred": 1.0555729866027832, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.011873890645802021, "eval/cont_loss_std": 0.3659886419773102, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.03043270111084, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.588868852006271e-05, "eval/cont_pred": 0.9992190003395081, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.364928245544434, "eval/dyn_loss_std": 11.216643333435059, "eval/image_loss_mean": 2.9596610069274902, "eval/image_loss_std": 2.642821788787842, "eval/model_loss_mean": 10.838089942932129, "eval/model_loss_std": 9.0842924118042, "eval/post_ent_mag": 64.1777114868164, "eval/post_ent_max": 64.1777114868164, "eval/post_ent_mean": 39.849037170410156, "eval/post_ent_min": 16.617013931274414, "eval/post_ent_std": 5.055892467498779, "eval/prior_ent_mag": 85.33364868164062, "eval/prior_ent_max": 85.33364868164062, "eval/prior_ent_mean": 45.28725051879883, "eval/prior_ent_min": 18.530132293701172, "eval/prior_ent_std": 7.984744071960449, "eval/rep_loss_mean": 12.364928245544434, "eval/rep_loss_std": 11.216643333435059, "eval/reward_avg": 1.484375, "eval/reward_loss_mean": 0.4475977420806885, "eval/reward_loss_std": 1.9708099365234375, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 10.007698059082031, "eval/reward_neg_acc": 0.9207383394241333, "eval/reward_neg_loss": 0.08119022846221924, "eval/reward_pos_acc": 0.6699029207229614, "eval/reward_pos_loss": 3.723921537399292, "eval/reward_pred": 0.7751047611236572, "eval/reward_rate": 0.1005859375, "replay/size": 170117.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.863708210237883e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3547061487685803e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0273494720459, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 393.9960243701935, "timer/replay._sample_frac": 1.3132003634452092, "timer/replay._sample_avg": 0.01590746222424877, "timer/replay._sample_min": 0.0004482269287109375, "timer/replay._sample_max": 0.04857182502746582, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.775743246078491, "timer/env.step_frac": 0.022583751974617233, "timer/env.step_avg": 0.004377095120205744, "timer/env.step_min": 0.0022826194763183594, "timer/env.step_max": 0.03485274314880371, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.20331764221191, "timer/agent.policy_frac": 0.3706439357541734, "timer/agent.policy_avg": 0.07183676850272087, "timer/agent.policy_min": 0.0029878616333007812, "timer/agent.policy_max": 0.08577227592468262, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15614795684814453, "timer/dataset_train_frac": 0.0005204457431061401, "timer/dataset_train_avg": 0.0001008707731577161, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002276897430419922, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.67340087890625, "timer/agent.train_frac": 0.6021897710219912, "timer/agent.train_avg": 0.11671408325510739, "timer/agent.train_min": 0.10384249687194824, "timer/agent.train_max": 0.20777153968811035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25762152671813965, "timer/agent.report_frac": 0.0008586601427218978, "timer/agent.report_avg": 0.12881076335906982, "timer/agent.report_min": 0.09596967697143555, "timer/agent.report_max": 0.1616518497467041, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.341934204101562e-05, "timer/dataset_eval_frac": 2.1137853649880183e-07, "timer/dataset_eval_avg": 6.341934204101562e-05, "timer/dataset_eval_min": 6.341934204101562e-05, "timer/dataset_eval_max": 6.341934204101562e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.636890422166154}
{"step": 556188, "episode/length": 418.0, "episode/score": 1040.0, "episode/reward_rate": 0.13126491646778043}
{"step": 557968, "episode/length": 444.0, "episode/score": 1070.0, "episode/reward_rate": 0.1303370786516854}
{"step": 559520, "episode/length": 387.0, "episode/score": 500.0, "episode/reward_rate": 0.12886597938144329}
{"step": 560928, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.43102082283266, "train/action_min": 0.0, "train/action_std": 4.256174224422824, "train/actor_opt_grad_norm": 0.009313737162418904, "train/actor_opt_grad_steps": 138360.0, "train/actor_opt_loss": -4.22308324393652e-05, "train/adv_mag": 0.8971579966045196, "train/adv_max": 0.8688922368711041, "train/adv_mean": 0.0023134408395215416, "train/adv_min": -0.5713256476386901, "train/adv_std": 0.043803988649479805, "train/cont_avg": 0.9981539818548387, "train/cont_loss_mean": 0.0004503395410235263, "train/cont_loss_std": 0.012118242459832411, "train/cont_neg_acc": 0.9128676477600547, "train/cont_neg_loss": 0.21255054458468148, "train/cont_pos_acc": 0.9999557941190658, "train/cont_pos_loss": 0.00016515313272876163, "train/cont_pred": 0.9981814007605275, "train/cont_rate": 0.9981539818548387, "train/dyn_loss_mean": 2.814077369628414, "train/dyn_loss_std": 6.038288827096262, "train/extr_critic_critic_opt_grad_norm": 1.5031581794061968, "train/extr_critic_critic_opt_grad_steps": 138360.0, "train/extr_critic_critic_opt_loss": 1.4446290116156302, "train/extr_critic_mag": 466.3120804325227, "train/extr_critic_max": 466.3120804325227, "train/extr_critic_mean": 228.982330125378, "train/extr_critic_min": 0.40361740742960284, "train/extr_critic_std": 146.7298287668536, "train/extr_return_normed_mag": 1.5182635053511588, "train/extr_return_normed_max": 1.5182635053511588, "train/extr_return_normed_mean": 0.5297183609777881, "train/extr_return_normed_min": -0.018223278699142316, "train/extr_return_normed_std": 0.3540553908194265, "train/extr_return_rate": 0.9471245446512776, "train/extr_return_raw_mag": 643.8912709882183, "train/extr_return_raw_max": 643.8912709882183, "train/extr_return_raw_mean": 229.9510028469947, "train/extr_return_raw_min": 0.5956537070667236, "train/extr_return_raw_std": 148.21002856839087, "train/extr_reward_mag": 355.39112525447723, "train/extr_reward_max": 355.39112525447723, "train/extr_reward_mean": 1.1659153449919917, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.08641291126128, "train/image_loss_mean": 0.9048500449426713, "train/image_loss_std": 0.7957262542939956, "train/model_loss_mean": 2.654132407711398, "train/model_loss_std": 4.137717814599314, "train/model_opt_grad_norm": 9.110830267014043, "train/model_opt_grad_steps": 138360.0, "train/model_opt_loss": 2.654132407711398, "train/policy_entropy_mag": 2.643903584634104, "train/policy_entropy_max": 2.643903584634104, "train/policy_entropy_mean": 0.7033059381669567, "train/policy_entropy_min": 0.08019129042663882, "train/policy_entropy_std": 0.6617185185032506, "train/policy_logprob_mag": 7.495541286468506, "train/policy_logprob_max": -0.009489522441740958, "train/policy_logprob_mean": -0.7050360918045044, "train/policy_logprob_min": -7.495541286468506, "train/policy_logprob_std": 1.203313757527259, "train/policy_randomness_mag": 0.9147278820314715, "train/policy_randomness_max": 0.9147278820314715, "train/policy_randomness_mean": 0.243327159074045, "train/policy_randomness_min": 0.027744283058470296, "train/policy_randomness_std": 0.22893890113599838, "train/post_ent_mag": 64.3380842639554, "train/post_ent_max": 64.3380842639554, "train/post_ent_mean": 40.17369086973129, "train/post_ent_min": 11.050009287557295, "train/post_ent_std": 5.647691735913677, "train/prior_ent_mag": 85.48150767664755, "train/prior_ent_max": 85.48150767664755, "train/prior_ent_mean": 43.01866238501764, "train/prior_ent_min": 13.594467969094554, "train/prior_ent_std": 7.843377239473404, "train/rep_loss_mean": 2.814077369628414, "train/rep_loss_std": 6.038288827096262, "train/reward_avg": 1.3575478830645162, "train/reward_loss_mean": 0.06038558377373603, "train/reward_loss_std": 0.21606320979133728, "train/reward_max_data": 306.7096774193548, "train/reward_max_pred": 244.01655126387072, "train/reward_neg_acc": 0.9846203188742361, "train/reward_neg_loss": 0.004804274934389057, "train/reward_pos_acc": 0.9963121056556702, "train/reward_pos_loss": 0.6059024972300375, "train/reward_pred": 1.2241127006469235, "train/reward_rate": 0.09265372983870968, "train_stats/mean_log_entropy": 0.5847525199254354, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00013979212963022292, "report/cont_loss_std": 0.0030322407837957144, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00663788802921772, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001270757056772709, "report/cont_pred": 0.9979374408721924, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.436537742614746, "report/dyn_loss_std": 5.660854339599609, "report/image_loss_mean": 0.7420558929443359, "report/image_loss_std": 0.735646665096283, "report/model_loss_mean": 2.2713799476623535, "report/model_loss_std": 3.832223415374756, "report/post_ent_mag": 63.15690612792969, "report/post_ent_max": 63.15690612792969, "report/post_ent_mean": 40.91716003417969, "report/post_ent_min": 18.079238891601562, "report/post_ent_std": 5.247657299041748, "report/prior_ent_mag": 85.42079162597656, "report/prior_ent_max": 85.42079162597656, "report/prior_ent_mean": 43.493431091308594, "report/prior_ent_min": 21.982418060302734, "report/prior_ent_std": 7.57152795791626, "report/rep_loss_mean": 2.436537742614746, "report/rep_loss_std": 5.660854339599609, "report/reward_avg": 1.201171875, "report/reward_loss_mean": 0.06726193428039551, "report/reward_loss_std": 0.18036560714244843, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.992267608642578, "report/reward_neg_acc": 0.9878048896789551, "report/reward_neg_loss": 0.002973780268803239, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5425726771354675, "report/reward_pred": 1.1970558166503906, "report/reward_rate": 0.119140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002294521313160658, "eval/cont_loss_std": 0.07335594296455383, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.3485381603240967, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.0278130275764852e-06, "eval/cont_pred": 0.9999057054519653, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.915779113769531, "eval/dyn_loss_std": 10.650845527648926, "eval/image_loss_mean": 2.684208869934082, "eval/image_loss_std": 2.700484275817871, "eval/model_loss_mean": 9.462434768676758, "eval/model_loss_std": 8.778715133666992, "eval/post_ent_mag": 61.954246520996094, "eval/post_ent_max": 61.954246520996094, "eval/post_ent_mean": 41.21324157714844, "eval/post_ent_min": 13.006675720214844, "eval/post_ent_std": 5.739012718200684, "eval/prior_ent_mag": 85.42079162597656, "eval/prior_ent_max": 85.42079162597656, "eval/prior_ent_mean": 45.704185485839844, "eval/prior_ent_min": 13.891134262084961, "eval/prior_ent_std": 7.827920913696289, "eval/rep_loss_mean": 10.915779113769531, "eval/rep_loss_std": 10.650845527648926, "eval/reward_avg": 2.060546875, "eval/reward_loss_mean": 0.22646445035934448, "eval/reward_loss_std": 1.501918077468872, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 493.75677490234375, "eval/reward_neg_acc": 0.9645833969116211, "eval/reward_neg_loss": 0.037287335842847824, "eval/reward_pos_acc": 0.796875, "eval/reward_pos_loss": 3.0641212463378906, "eval/reward_pred": 1.3606146574020386, "eval/reward_rate": 0.0625, "replay/size": 171663.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.843474976612402e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3240346779027546e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0378506183624, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 384.1103308200836, "timer/replay._sample_frac": 1.280206247406626, "timer/replay._sample_avg": 0.01552839306355448, "timer/replay._sample_min": 0.0005500316619873047, "timer/replay._sample_max": 0.05403494834899902, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.7296977043151855, "timer/env.step_frac": 0.022429495780101172, "timer/env.step_avg": 0.004352973935520818, "timer/env.step_min": 0.0024118423461914062, "timer/env.step_max": 0.032654523849487305, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.26019358634949, "timer/agent.policy_frac": 0.37082052600046295, "timer/agent.policy_avg": 0.07196649002998026, "timer/agent.policy_min": 0.0031599998474121094, "timer/agent.policy_max": 0.1580183506011963, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15524864196777344, "timer/dataset_train_frac": 0.0005174301897171109, "timer/dataset_train_avg": 0.00010041956142805527, "timer/dataset_train_min": 6.0558319091796875e-05, "timer/dataset_train_max": 0.0002205371856689453, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.704003572464, "timer/agent.train_frac": 0.6022706908479795, "timer/agent.train_avg": 0.1168848664763674, "timer/agent.train_min": 0.1011970043182373, "timer/agent.train_max": 0.29716062545776367, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26190185546875, "timer/agent.report_frac": 0.0008728960527112959, "timer/agent.report_avg": 0.130950927734375, "timer/agent.report_min": 0.09985756874084473, "timer/agent.report_max": 0.16204428672790527, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.580352783203125e-05, "timer/dataset_eval_frac": 2.1931742177333157e-07, "timer/dataset_eval_avg": 6.580352783203125e-05, "timer/dataset_eval_min": 6.580352783203125e-05, "timer/dataset_eval_max": 6.580352783203125e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10111498832702637, "timer/agent.save_frac": 0.000337007441289936, "timer/agent.save_avg": 0.10111498832702637, "timer/agent.save_min": 0.10111498832702637, "timer/agent.save_max": 0.10111498832702637, "fps": 20.60955263408318}
{"step": 561080, "episode/length": 389.0, "episode/score": 1010.0, "episode/reward_rate": 0.13333333333333333}
{"step": 562848, "episode/length": 441.0, "episode/score": 1040.0, "episode/reward_rate": 0.1244343891402715}
{"step": 564548, "episode/length": 424.0, "episode/score": 1040.0, "episode/reward_rate": 0.12941176470588237}
{"step": 566100, "episode/length": 387.0, "episode/score": 1010.0, "episode/reward_rate": 0.13402061855670103}
{"step": 567132, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.522559381300404, "train/action_min": 0.0, "train/action_std": 4.227317708538425, "train/actor_opt_grad_norm": 0.008463122456845256, "train/actor_opt_grad_steps": 139910.0, "train/actor_opt_loss": 1.4658649375163686e-06, "train/adv_mag": 0.8528635449947849, "train/adv_max": 0.8123363416041097, "train/adv_mean": 0.002315948921058143, "train/adv_min": -0.579356286698772, "train/adv_std": 0.040249421423481355, "train/cont_avg": 0.9980972782258064, "train/cont_loss_mean": 0.00045598347997699356, "train/cont_loss_std": 0.010837416919065769, "train/cont_neg_acc": 0.9617647059700069, "train/cont_neg_loss": 0.12212650976693235, "train/cont_pos_acc": 0.9999305548206452, "train/cont_pos_loss": 0.00023362501851504472, "train/cont_pred": 0.9980682157701062, "train/cont_rate": 0.9980972782258064, "train/dyn_loss_mean": 2.7785945477024203, "train/dyn_loss_std": 5.932648987923899, "train/extr_critic_critic_opt_grad_norm": 1.422500116594376, "train/extr_critic_critic_opt_grad_steps": 139910.0, "train/extr_critic_critic_opt_loss": 1.3830561914751607, "train/extr_critic_mag": 469.0593220372354, "train/extr_critic_max": 469.0593220372354, "train/extr_critic_mean": 237.85013757521105, "train/extr_critic_min": 0.7140764236450196, "train/extr_critic_std": 148.71937757922757, "train/extr_return_normed_mag": 1.4366167310745486, "train/extr_return_normed_max": 1.4366167310745486, "train/extr_return_normed_mean": 0.5448670196917749, "train/extr_return_normed_min": -0.016438910022618308, "train/extr_return_normed_std": 0.3536101188390486, "train/extr_return_rate": 0.9434488892555237, "train/extr_return_raw_mag": 617.0955611690398, "train/extr_return_raw_max": 617.0955611690398, "train/extr_return_raw_mean": 238.8325208110194, "train/extr_return_raw_min": 0.6119843403776383, "train/extr_return_raw_std": 150.0643780123803, "train/extr_reward_mag": 311.83043650350265, "train/extr_reward_max": 311.83043650350265, "train/extr_reward_mean": 1.1663522902996308, "train/extr_reward_min": 0.0, "train/extr_reward_std": 9.25676943256009, "train/image_loss_mean": 0.8741518824331223, "train/image_loss_std": 0.7667463940958823, "train/model_loss_mean": 2.6042200211555726, "train/model_loss_std": 4.059353150090864, "train/model_opt_grad_norm": 9.534470776588686, "train/model_opt_grad_steps": 139910.0, "train/model_opt_loss": 2.6042200211555726, "train/policy_entropy_mag": 2.6509131523870653, "train/policy_entropy_max": 2.6509131523870653, "train/policy_entropy_mean": 0.7013166931367689, "train/policy_entropy_min": 0.0801913358992146, "train/policy_entropy_std": 0.6612198356659181, "train/policy_logprob_mag": 7.495541111115487, "train/policy_logprob_max": -0.009489512521653407, "train/policy_logprob_mean": -0.7008662973680804, "train/policy_logprob_min": -7.495541111115487, "train/policy_logprob_std": 1.1965566135221912, "train/policy_randomness_mag": 0.9171530269807385, "train/policy_randomness_max": 0.9171530269807385, "train/policy_randomness_mean": 0.24263892856336408, "train/policy_randomness_min": 0.02774429872872368, "train/policy_randomness_std": 0.22876636760850105, "train/post_ent_mag": 64.49232433688256, "train/post_ent_max": 64.49232433688256, "train/post_ent_mean": 40.22441147835024, "train/post_ent_min": 10.932606866282802, "train/post_ent_std": 5.71536477304274, "train/prior_ent_mag": 85.55191172938193, "train/prior_ent_max": 85.55191172938193, "train/prior_ent_mean": 43.02766706405147, "train/prior_ent_min": 13.553074043027816, "train/prior_ent_std": 7.906899852137411, "train/rep_loss_mean": 2.7785945477024203, "train/rep_loss_std": 5.932648987923899, "train/reward_avg": 1.2826990927419355, "train/reward_loss_mean": 0.06245543825770578, "train/reward_loss_std": 0.218338972810776, "train/reward_max_data": 247.2258064516129, "train/reward_max_pred": 224.0798059278919, "train/reward_neg_acc": 0.9847473640595713, "train/reward_neg_loss": 0.0049564712260278965, "train/reward_pos_acc": 0.9961844644238872, "train/reward_pos_loss": 0.6031666928722013, "train/reward_pred": 1.2156243191611382, "train/reward_rate": 0.09634576612903226, "train_stats/mean_log_entropy": 0.5788671523332596, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.7290991308982484e-05, "report/cont_loss_std": 0.0003137681633234024, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0005560701247304678, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6764324755058624e-05, "report/cont_pred": 0.9990072846412659, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.732835054397583, "report/dyn_loss_std": 5.817767143249512, "report/image_loss_mean": 0.8805837035179138, "report/image_loss_std": 0.8106783628463745, "report/model_loss_mean": 2.5787158012390137, "report/model_loss_std": 3.9937856197357178, "report/post_ent_mag": 63.50186538696289, "report/post_ent_max": 63.50186538696289, "report/post_ent_mean": 39.77324295043945, "report/post_ent_min": 11.33822250366211, "report/post_ent_std": 5.602456569671631, "report/prior_ent_mag": 85.44088745117188, "report/prior_ent_max": 85.44088745117188, "report/prior_ent_mean": 42.7337646484375, "report/prior_ent_min": 13.87458610534668, "report/prior_ent_std": 7.708364963531494, "report/rep_loss_mean": 2.732835054397583, "report/rep_loss_std": 5.817767143249512, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.0584135577082634, "report/reward_loss_std": 0.19230253994464874, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.2074890136719, "report/reward_neg_acc": 0.9892124533653259, "report/reward_neg_loss": 0.002796729328110814, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5899270176887512, "report/reward_pred": 1.399657130241394, "report/reward_rate": 0.0947265625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.101942367526703e-10, "eval/cont_loss_std": 4.278708054528124e-09, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.101942367526703e-10, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 7.590677261352539, "eval/dyn_loss_std": 10.430801391601562, "eval/image_loss_mean": 1.794440507888794, "eval/image_loss_std": 2.2057130336761475, "eval/model_loss_mean": 6.6363630294799805, "eval/model_loss_std": 8.625200271606445, "eval/post_ent_mag": 58.87184143066406, "eval/post_ent_max": 58.87184143066406, "eval/post_ent_mean": 40.02444076538086, "eval/post_ent_min": 10.730945587158203, "eval/post_ent_std": 6.292339324951172, "eval/prior_ent_mag": 85.44088745117188, "eval/prior_ent_max": 85.44088745117188, "eval/prior_ent_mean": 44.38425064086914, "eval/prior_ent_min": 19.822040557861328, "eval/prior_ent_std": 8.092750549316406, "eval/rep_loss_mean": 7.590677261352539, "eval/rep_loss_std": 10.430801391601562, "eval/reward_avg": 2.294921875, "eval/reward_loss_mean": 0.2875162363052368, "eval/reward_loss_std": 1.9271997213363647, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 497.68023681640625, "eval/reward_neg_acc": 0.9679828882217407, "eval/reward_neg_loss": 0.03825719654560089, "eval/reward_pos_acc": 0.8160919547080994, "eval/reward_pos_loss": 2.972064733505249, "eval/reward_pred": 2.063326358795166, "eval/reward_rate": 0.0849609375, "replay/size": 173214.0, "replay/inserts": 1551.0, "replay/samples": 24816.0, "replay/insert_wait_avg": 4.6357118568445005e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345687263016544e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1267466545105, "timer/replay._sample_count": 24816.0, "timer/replay._sample_total": 397.0985677242279, "timer/replay._sample_frac": 1.3231028961952067, "timer/replay._sample_avg": 0.016001715333826078, "timer/replay._sample_min": 0.0005288124084472656, "timer/replay._sample_max": 0.05028271675109863, "timer/env.step_count": 1551.0, "timer/env.step_total": 6.779414653778076, "timer/env.step_frac": 0.022588505454271185, "timer/env.step_avg": 0.004370995908303079, "timer/env.step_min": 0.0021834373474121094, "timer/env.step_max": 0.03385448455810547, "timer/agent.policy_count": 1551.0, "timer/agent.policy_total": 112.20250701904297, "timer/agent.policy_frac": 0.37385040910134, "timer/agent.policy_avg": 0.07234204192072403, "timer/agent.policy_min": 0.0031404495239257812, "timer/agent.policy_max": 0.08474850654602051, "timer/dataset_train_count": 1551.0, "timer/dataset_train_total": 0.15115928649902344, "timer/dataset_train_frac": 0.0005036515011873625, "timer/dataset_train_avg": 9.745924339073078e-05, "timer/dataset_train_min": 4.9591064453125e-05, "timer/dataset_train_max": 0.00023221969604492188, "timer/agent.train_count": 1551.0, "timer/agent.train_total": 179.8019506931305, "timer/agent.train_frac": 0.599086728181906, "timer/agent.train_avg": 0.11592646724250838, "timer/agent.train_min": 0.1003577709197998, "timer/agent.train_max": 0.2014479637145996, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2670421600341797, "timer/agent.report_frac": 0.0008897646178185646, "timer/agent.report_avg": 0.13352108001708984, "timer/agent.report_min": 0.10311484336853027, "timer/agent.report_max": 0.16392731666564941, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.38690185546875e-05, "timer/dataset_eval_frac": 1.4616830736911e-07, "timer/dataset_eval_avg": 4.38690185546875e-05, "timer/dataset_eval_min": 4.38690185546875e-05, "timer/dataset_eval_max": 4.38690185546875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.670147746569636}
{"step": 567656, "episode/length": 388.0, "episode/score": 1010.0, "episode/reward_rate": 0.13367609254498714}
{"step": 569192, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.13541666666666666}
{"step": 570768, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.1319796954314721}
{"step": 572384, "episode/length": 403.0, "episode/score": 1000.0, "episode/reward_rate": 0.12376237623762376}
{"step": 573340, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.49245369203629, "train/action_min": 0.0, "train/action_std": 4.252911229287425, "train/actor_opt_grad_norm": 0.00888071960108655, "train/actor_opt_grad_steps": 141460.0, "train/actor_opt_loss": 6.81238217251326e-05, "train/adv_mag": 0.8032347458024178, "train/adv_max": 0.7608393446091682, "train/adv_mean": 0.0023170836176734976, "train/adv_min": -0.5759858454427411, "train/adv_std": 0.0391242416395295, "train/cont_avg": 0.9981350806451613, "train/cont_loss_mean": 0.00046326417811489253, "train/cont_loss_std": 0.012129790313511534, "train/cont_neg_acc": 0.9519900506112113, "train/cont_neg_loss": 0.13145021559646702, "train/cont_pos_acc": 0.9999494302657342, "train/cont_pos_loss": 0.00021388112058440625, "train/cont_pred": 0.9981240814731968, "train/cont_rate": 0.9981350806451613, "train/dyn_loss_mean": 2.81670650359123, "train/dyn_loss_std": 6.0197634266268825, "train/extr_critic_critic_opt_grad_norm": 1.461587756679904, "train/extr_critic_critic_opt_grad_steps": 141460.0, "train/extr_critic_critic_opt_loss": 1.38480236722577, "train/extr_critic_mag": 471.9542990407636, "train/extr_critic_max": 471.9542990407636, "train/extr_critic_mean": 240.06158919795868, "train/extr_critic_min": 0.2118902391003024, "train/extr_critic_std": 150.1031726960213, "train/extr_return_normed_mag": 1.4000536499484892, "train/extr_return_normed_max": 1.4000536499484892, "train/extr_return_normed_mean": 0.5444299647884984, "train/extr_return_normed_min": -0.018502044627412912, "train/extr_return_normed_std": 0.3537426594764956, "train/extr_return_rate": 0.9446300045136482, "train/extr_return_raw_mag": 607.1060729980469, "train/extr_return_raw_max": 607.1060729980469, "train/extr_return_raw_mean": 241.0528134253717, "train/extr_return_raw_min": 0.26636456185698343, "train/extr_return_raw_std": 151.3008593159337, "train/extr_reward_mag": 301.84224712617936, "train/extr_reward_max": 301.84224712617936, "train/extr_reward_mean": 1.1357327753497708, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.7125399251138, "train/image_loss_mean": 0.8981354794194621, "train/image_loss_std": 0.7836579876561318, "train/model_loss_mean": 2.6503770512919274, "train/model_loss_std": 4.123357063724149, "train/model_opt_grad_norm": 9.04110793452109, "train/model_opt_grad_steps": 141460.0, "train/model_opt_loss": 2.6503770512919274, "train/policy_entropy_mag": 2.676191883702432, "train/policy_entropy_max": 2.676191883702432, "train/policy_entropy_mean": 0.6980487198598924, "train/policy_entropy_min": 0.08019128701379222, "train/policy_entropy_std": 0.6723537277790808, "train/policy_logprob_mag": 7.495541480279738, "train/policy_logprob_max": -0.0094895392235729, "train/policy_logprob_mean": -0.6975781396512062, "train/policy_logprob_min": -7.495541480279738, "train/policy_logprob_std": 1.1936180007073187, "train/policy_randomness_mag": 0.9258988680378083, "train/policy_randomness_max": 0.9258988680378083, "train/policy_randomness_mean": 0.2415082859416162, "train/policy_randomness_min": 0.027744281820712553, "train/policy_randomness_std": 0.23261843044911662, "train/post_ent_mag": 64.05552080215946, "train/post_ent_max": 64.05552080215946, "train/post_ent_mean": 40.11238376248267, "train/post_ent_min": 10.724203743473176, "train/post_ent_std": 5.564268493652344, "train/prior_ent_mag": 85.57256779824534, "train/prior_ent_max": 85.57256779824534, "train/prior_ent_mean": 42.95568382509293, "train/prior_ent_min": 13.072426202220301, "train/prior_ent_std": 7.8047973786630935, "train/rep_loss_mean": 2.81670650359123, "train/rep_loss_std": 6.0197634266268825, "train/reward_avg": 1.2472908266129032, "train/reward_loss_mean": 0.06175439095785541, "train/reward_loss_std": 0.2170449775072836, "train/reward_max_data": 234.96774193548387, "train/reward_max_pred": 192.97781048436318, "train/reward_neg_acc": 0.9848945198520538, "train/reward_neg_loss": 0.005014600030957691, "train/reward_pos_acc": 0.9968411810936466, "train/reward_pos_loss": 0.6004012680822803, "train/reward_pred": 1.1641299201596167, "train/reward_rate": 0.09553931451612903, "train_stats/mean_log_entropy": 0.5428801774978638, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00011924693535547704, "report/cont_loss_std": 0.002076268196105957, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.452839519013651e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00011932975030504167, "report/cont_pred": 0.9989063739776611, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.4278602600097656, "report/dyn_loss_std": 5.622130870819092, "report/image_loss_mean": 0.6532862186431885, "report/image_loss_std": 0.5661038160324097, "report/model_loss_mean": 2.1681227684020996, "report/model_loss_std": 3.6814615726470947, "report/post_ent_mag": 65.86893463134766, "report/post_ent_max": 65.86893463134766, "report/post_ent_mean": 41.54779052734375, "report/post_ent_min": 12.769685745239258, "report/post_ent_std": 5.810888290405273, "report/prior_ent_mag": 85.43775177001953, "report/prior_ent_max": 85.43775177001953, "report/prior_ent_mean": 44.088775634765625, "report/prior_ent_min": 13.715690612792969, "report/prior_ent_std": 7.658426761627197, "report/rep_loss_mean": 2.4278602600097656, "report/rep_loss_std": 5.622130870819092, "report/reward_avg": 1.40625, "report/reward_loss_mean": 0.05800117552280426, "report/reward_loss_std": 0.205339252948761, "report/reward_max_data": 500.0, "report/reward_max_pred": 496.662109375, "report/reward_neg_acc": 0.9838535785675049, "report/reward_neg_loss": 0.0031035002321004868, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5948426723480225, "report/reward_pred": 1.3793085813522339, "report/reward_rate": 0.0927734375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.752871180040529e-06, "eval/cont_loss_std": 8.455922215944156e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.752871180040529e-06, "eval/cont_pred": 0.9999962449073792, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 7.927306175231934, "eval/dyn_loss_std": 9.590767860412598, "eval/image_loss_mean": 1.7596228122711182, "eval/image_loss_std": 2.0531070232391357, "eval/model_loss_mean": 6.720088958740234, "eval/model_loss_std": 7.475980758666992, "eval/post_ent_mag": 63.11636734008789, "eval/post_ent_max": 63.11636734008789, "eval/post_ent_mean": 40.053443908691406, "eval/post_ent_min": 9.865046501159668, "eval/post_ent_std": 5.770777702331543, "eval/prior_ent_mag": 85.43775177001953, "eval/prior_ent_max": 85.43775177001953, "eval/prior_ent_mean": 43.5408935546875, "eval/prior_ent_min": 10.39450740814209, "eval/prior_ent_std": 8.119527816772461, "eval/rep_loss_mean": 7.927306175231934, "eval/rep_loss_std": 9.590767860412598, "eval/reward_avg": 1.337890625, "eval/reward_loss_mean": 0.20407867431640625, "eval/reward_loss_std": 1.4285567998886108, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 19.993167877197266, "eval/reward_neg_acc": 0.9712153673171997, "eval/reward_neg_loss": 0.055245377123355865, "eval/reward_pos_acc": 0.895348846912384, "eval/reward_pos_loss": 1.8273999691009521, "eval/reward_pred": 0.8141106963157654, "eval/reward_rate": 0.083984375, "replay/size": 174766.0, "replay/inserts": 1552.0, "replay/samples": 24832.0, "replay/insert_wait_avg": 4.472499041213203e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3628321670994317e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05760407447815, "timer/replay._sample_count": 24832.0, "timer/replay._sample_total": 405.0960645675659, "timer/replay._sample_frac": 1.350060985180085, "timer/replay._sample_avg": 0.01631346909502118, "timer/replay._sample_min": 0.0006539821624755859, "timer/replay._sample_max": 0.05440664291381836, "timer/env.step_count": 1552.0, "timer/env.step_total": 6.6748480796813965, "timer/env.step_frac": 0.0222452222141473, "timer/env.step_avg": 0.004300804175052447, "timer/env.step_min": 0.002202749252319336, "timer/env.step_max": 0.03193521499633789, "timer/agent.policy_count": 1552.0, "timer/agent.policy_total": 113.13924670219421, "timer/agent.policy_frac": 0.37705842200256856, "timer/agent.policy_avg": 0.07289899916378494, "timer/agent.policy_min": 0.002847433090209961, "timer/agent.policy_max": 0.08716249465942383, "timer/dataset_train_count": 1552.0, "timer/dataset_train_total": 0.14707016944885254, "timer/dataset_train_frac": 0.0004901397846673062, "timer/dataset_train_avg": 9.476170711910602e-05, "timer/dataset_train_min": 5.054473876953125e-05, "timer/dataset_train_max": 0.00030112266540527344, "timer/agent.train_count": 1552.0, "timer/agent.train_total": 178.8918333053589, "timer/agent.train_frac": 0.5961916341268779, "timer/agent.train_avg": 0.11526535651118484, "timer/agent.train_min": 0.10068631172180176, "timer/agent.train_max": 0.879737138748169, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26407861709594727, "timer/agent.report_frac": 0.0008800930671645287, "timer/agent.report_avg": 0.13203930854797363, "timer/agent.report_min": 0.10101890563964844, "timer/agent.report_max": 0.16305971145629883, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.956390380859375e-05, "timer/dataset_eval_frac": 9.852742742442085e-08, "timer/dataset_eval_avg": 2.956390380859375e-05, "timer/dataset_eval_min": 2.956390380859375e-05, "timer/dataset_eval_max": 2.956390380859375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.688039193703005}
{"step": 573964, "episode/length": 394.0, "episode/score": 990.0, "episode/reward_rate": 0.12658227848101267}
{"step": 575580, "episode/length": 403.0, "episode/score": 460.0, "episode/reward_rate": 0.11386138613861387}
{"step": 577156, "episode/length": 393.0, "episode/score": 1000.0, "episode/reward_rate": 0.12944162436548223}
{"step": 578704, "episode/length": 386.0, "episode/score": 980.0, "episode/reward_rate": 0.12661498708010335}
{"step": 579564, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.531478490584936, "train/action_min": 0.0, "train/action_std": 4.2684035652723065, "train/actor_opt_grad_norm": 0.008523196114812238, "train/actor_opt_grad_steps": 143015.0, "train/actor_opt_loss": -0.00021712334116786317, "train/adv_mag": 0.8303434268977398, "train/adv_max": 0.7939136055990671, "train/adv_mean": 0.0020137655642545912, "train/adv_min": -0.5559367717076571, "train/adv_std": 0.04143243212587176, "train/cont_avg": 0.9981720753205128, "train/cont_loss_mean": 0.00026956051913240006, "train/cont_loss_std": 0.007067020221457941, "train/cont_neg_acc": 0.9651851857150042, "train/cont_neg_loss": 0.07068921886675483, "train/cont_pos_acc": 0.9999748926896316, "train/cont_pos_loss": 0.00012910837229203795, "train/cont_pred": 0.9981547510012602, "train/cont_rate": 0.9981720753205128, "train/dyn_loss_mean": 2.8222725207989035, "train/dyn_loss_std": 5.983276932667463, "train/extr_critic_critic_opt_grad_norm": 1.4726249266129274, "train/extr_critic_critic_opt_grad_steps": 143015.0, "train/extr_critic_critic_opt_loss": 1.4011947474418542, "train/extr_critic_mag": 469.56989112267127, "train/extr_critic_max": 469.56989112267127, "train/extr_critic_mean": 236.7553097651555, "train/extr_critic_min": 0.34835940370192897, "train/extr_critic_std": 151.97351274734888, "train/extr_return_normed_mag": 1.4494484387911284, "train/extr_return_normed_max": 1.4494484387911284, "train/extr_return_normed_mean": 0.5350301831196516, "train/extr_return_normed_min": -0.017089337838861424, "train/extr_return_normed_std": 0.35656874292553997, "train/extr_return_rate": 0.9414847539021418, "train/extr_return_raw_mag": 630.4733620668069, "train/extr_return_raw_max": 630.4733620668069, "train/extr_return_raw_mean": 237.62077458699545, "train/extr_return_raw_min": 0.37946189856395507, "train/extr_return_raw_std": 153.21002299969012, "train/extr_reward_mag": 320.88054728507996, "train/extr_reward_max": 320.88054728507996, "train/extr_reward_mean": 1.1873581929084582, "train/extr_reward_min": 0.0, "train/extr_reward_std": 9.714384318926395, "train/image_loss_mean": 0.8968186195080097, "train/image_loss_std": 0.7787636889097018, "train/model_loss_mean": 2.652490605146457, "train/model_loss_std": 4.098202094053611, "train/model_opt_grad_norm": 9.56079379411844, "train/model_opt_grad_steps": 143015.0, "train/model_opt_loss": 2.652490605146457, "train/policy_entropy_mag": 2.694159066065764, "train/policy_entropy_max": 2.694159066065764, "train/policy_entropy_mean": 0.7118781176515114, "train/policy_entropy_min": 0.08019122605522473, "train/policy_entropy_std": 0.6817706066828507, "train/policy_logprob_mag": 7.495541367775354, "train/policy_logprob_max": -0.009489530195983557, "train/policy_logprob_mean": -0.7127600883444151, "train/policy_logprob_min": -7.495541367775354, "train/policy_logprob_std": 1.202292187855794, "train/policy_randomness_mag": 0.9321150867602764, "train/policy_randomness_max": 0.9321150867602764, "train/policy_randomness_mean": 0.24629293143367156, "train/policy_randomness_min": 0.027744260736000843, "train/policy_randomness_std": 0.235876447115189, "train/post_ent_mag": 63.96662734105037, "train/post_ent_max": 63.96662734105037, "train/post_ent_mean": 40.18090172303029, "train/post_ent_min": 11.577051401138306, "train/post_ent_std": 5.554796267778445, "train/prior_ent_mag": 85.49149068196614, "train/prior_ent_max": 85.49149068196614, "train/prior_ent_mean": 43.015160536154724, "train/prior_ent_min": 13.98099124737275, "train/prior_ent_std": 7.785457406288538, "train/rep_loss_mean": 2.8222725207989035, "train/rep_loss_std": 5.983276932667463, "train/reward_avg": 1.328563201121795, "train/reward_loss_mean": 0.062038908330484845, "train/reward_loss_std": 0.22050710710195395, "train/reward_max_data": 292.37179487179486, "train/reward_max_pred": 254.35949016228702, "train/reward_neg_acc": 0.9843280349786465, "train/reward_neg_loss": 0.004935693181603431, "train/reward_pos_acc": 0.9958893381632291, "train/reward_pos_loss": 0.6057316118325943, "train/reward_pred": 1.2412686726221671, "train/reward_rate": 0.09531500400641026, "train_stats/mean_log_entropy": 0.5983697026968002, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.0011187964119017124, "report/cont_loss_std": 0.02204696461558342, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0359494686126709, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.000982205499894917, "report/cont_pred": 0.9954389333724976, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.6856229305267334, "report/dyn_loss_std": 6.072021484375, "report/image_loss_mean": 0.7647577524185181, "report/image_loss_std": 0.7984117865562439, "report/model_loss_mean": 2.4455976486206055, "report/model_loss_std": 4.146334648132324, "report/post_ent_mag": 64.7384033203125, "report/post_ent_max": 64.7384033203125, "report/post_ent_mean": 38.76435089111328, "report/post_ent_min": 9.437649726867676, "report/post_ent_std": 6.711664199829102, "report/prior_ent_mag": 85.4190444946289, "report/prior_ent_max": 85.4190444946289, "report/prior_ent_mean": 41.484275817871094, "report/prior_ent_min": 13.267634391784668, "report/prior_ent_std": 8.877897262573242, "report/rep_loss_mean": 2.6856229305267334, "report/rep_loss_std": 6.072021484375, "report/reward_avg": 1.5234375, "report/reward_loss_mean": 0.06834729015827179, "report/reward_loss_std": 0.2491627186536789, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.9340515136719, "report/reward_neg_acc": 0.9869281053543091, "report/reward_neg_loss": 0.004892796743661165, "report/reward_pos_acc": 0.990566074848175, "report/reward_pos_loss": 0.6178871393203735, "report/reward_pred": 1.4914264678955078, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.024359870702028275, "eval/cont_loss_std": 0.46464523673057556, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 8.313261032104492, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.629503109754296e-06, "eval/cont_pred": 0.9999903440475464, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.590311050415039, "eval/dyn_loss_std": 11.705463409423828, "eval/image_loss_mean": 2.4857845306396484, "eval/image_loss_std": 2.6905336380004883, "eval/model_loss_mean": 9.245092391967773, "eval/model_loss_std": 9.517420768737793, "eval/post_ent_mag": 66.80845642089844, "eval/post_ent_max": 66.80845642089844, "eval/post_ent_mean": 40.71915817260742, "eval/post_ent_min": 9.966093063354492, "eval/post_ent_std": 5.194430351257324, "eval/prior_ent_mag": 85.4190444946289, "eval/prior_ent_max": 85.4190444946289, "eval/prior_ent_mean": 45.08018493652344, "eval/prior_ent_min": 20.914405822753906, "eval/prior_ent_std": 7.703454494476318, "eval/rep_loss_mean": 10.590311050415039, "eval/rep_loss_std": 11.705463409423828, "eval/reward_avg": 2.0703125, "eval/reward_loss_mean": 0.3807612955570221, "eval/reward_loss_std": 1.8821791410446167, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 500.21697998046875, "eval/reward_neg_acc": 0.9593406915664673, "eval/reward_neg_loss": 0.04264719411730766, "eval/reward_pos_acc": 0.7368420958518982, "eval/reward_pos_loss": 3.079742431640625, "eval/reward_pred": 1.3336901664733887, "eval/reward_rate": 0.111328125, "replay/size": 176322.0, "replay/inserts": 1556.0, "replay/samples": 24896.0, "replay/insert_wait_avg": 4.566267400903383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3322174395877475e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0462589263916, "timer/replay._sample_count": 24896.0, "timer/replay._sample_total": 400.4303569793701, "timer/replay._sample_frac": 1.3345620719024032, "timer/replay._sample_avg": 0.01608412423599655, "timer/replay._sample_min": 0.0006899833679199219, "timer/replay._sample_max": 0.043929338455200195, "timer/env.step_count": 1556.0, "timer/env.step_total": 6.682205438613892, "timer/env.step_frac": 0.022270584084346786, "timer/env.step_avg": 0.004294476502965226, "timer/env.step_min": 0.0014574527740478516, "timer/env.step_max": 0.03255009651184082, "timer/agent.policy_count": 1556.0, "timer/agent.policy_total": 113.95733189582825, "timer/agent.policy_frac": 0.3797992093072044, "timer/agent.policy_avg": 0.07323735983022381, "timer/agent.policy_min": 0.003153085708618164, "timer/agent.policy_max": 0.26274752616882324, "timer/dataset_train_count": 1556.0, "timer/dataset_train_total": 0.1464524269104004, "timer/dataset_train_frac": 0.0004880994931729131, "timer/dataset_train_avg": 9.41210969861185e-05, "timer/dataset_train_min": 5.2928924560546875e-05, "timer/dataset_train_max": 0.00021123886108398438, "timer/agent.train_count": 1556.0, "timer/agent.train_total": 178.09351444244385, "timer/agent.train_frac": 0.5935535243121773, "timer/agent.train_avg": 0.11445598614552946, "timer/agent.train_min": 0.10027956962585449, "timer/agent.train_max": 0.20258307456970215, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2618408203125, "timer/agent.report_frac": 0.0008726681720658804, "timer/agent.report_avg": 0.13092041015625, "timer/agent.report_min": 0.09835171699523926, "timer/agent.report_max": 0.16348910331726074, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.435943603515625e-05, "timer/dataset_eval_frac": 1.8117018432311764e-07, "timer/dataset_eval_avg": 5.435943603515625e-05, "timer/dataset_eval_min": 5.435943603515625e-05, "timer/dataset_eval_max": 5.435943603515625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09466886520385742, "timer/agent.save_frac": 0.0003155142328472821, "timer/agent.save_avg": 0.09466886520385742, "timer/agent.save_min": 0.09466886520385742, "timer/agent.save_max": 0.09466886520385742, "fps": 20.74248398467191}
{"step": 580184, "episode/length": 369.0, "episode/score": 900.0, "episode/reward_rate": 0.11081081081081082}
{"step": 581732, "episode/length": 386.0, "episode/score": 1010.0, "episode/reward_rate": 0.13178294573643412}
{"step": 583268, "episode/length": 383.0, "episode/score": 990.0, "episode/reward_rate": 0.13020833333333334}
{"step": 585080, "episode/length": 452.0, "episode/score": 510.0, "episode/reward_rate": 0.11037527593818984}
{"step": 585788, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.67638648248488, "train/action_min": 0.0, "train/action_std": 4.258477517097227, "train/actor_opt_grad_norm": 0.008190843327752044, "train/actor_opt_grad_steps": 144570.0, "train/actor_opt_loss": -0.00026699847739139167, "train/adv_mag": 0.8279578357934951, "train/adv_max": 0.801055440595073, "train/adv_mean": 0.0020596254305635213, "train/adv_min": -0.5522132015035999, "train/adv_std": 0.03990067813184953, "train/cont_avg": 0.9981728830645161, "train/cont_loss_mean": 0.0005382761819835113, "train/cont_loss_std": 0.014435520429706486, "train/cont_neg_acc": 0.9568627456970075, "train/cont_neg_loss": 0.1291471098214057, "train/cont_pos_acc": 0.9999052609166791, "train/cont_pos_loss": 0.00024169545763401762, "train/cont_pred": 0.9981498029924208, "train/cont_rate": 0.9981728830645161, "train/dyn_loss_mean": 2.7933974865944156, "train/dyn_loss_std": 5.974839044386341, "train/extr_critic_critic_opt_grad_norm": 1.4984840500739314, "train/extr_critic_critic_opt_grad_steps": 144570.0, "train/extr_critic_critic_opt_loss": 1.3751177364780056, "train/extr_critic_mag": 473.39091619676157, "train/extr_critic_max": 473.39091619676157, "train/extr_critic_mean": 236.8392600767074, "train/extr_critic_min": 0.12004563577713505, "train/extr_critic_std": 153.69822377850932, "train/extr_return_normed_mag": 1.3823480429187898, "train/extr_return_normed_max": 1.3823480429187898, "train/extr_return_normed_mean": 0.5320813550103095, "train/extr_return_normed_min": -0.016748003397257096, "train/extr_return_normed_std": 0.35768582109482056, "train/extr_return_rate": 0.9396636078434606, "train/extr_return_raw_mag": 605.7458698887979, "train/extr_return_raw_max": 605.7458698887979, "train/extr_return_raw_mean": 237.73057782573085, "train/extr_return_raw_min": 0.16313782590892045, "train/extr_return_raw_std": 154.8367859871157, "train/extr_reward_mag": 327.3736192026446, "train/extr_reward_max": 327.3736192026446, "train/extr_reward_mean": 1.1694113831366262, "train/extr_reward_min": 0.0, "train/extr_reward_std": 9.581548709254111, "train/image_loss_mean": 0.8822754340787088, "train/image_loss_std": 0.7664637719431231, "train/model_loss_mean": 2.619543633922454, "train/model_loss_std": 4.0799379964028635, "train/model_opt_grad_norm": 9.46882224852039, "train/model_opt_grad_steps": 144570.0, "train/model_opt_loss": 2.619543633922454, "train/policy_entropy_mag": 2.7128380052505, "train/policy_entropy_max": 2.7128380052505, "train/policy_entropy_mean": 0.7154909587675525, "train/policy_entropy_min": 0.08019121861265552, "train/policy_entropy_std": 0.6873559855645702, "train/policy_logprob_mag": 7.495541701778289, "train/policy_logprob_max": -0.00948953694033046, "train/policy_logprob_mean": -0.7152917456242346, "train/policy_logprob_min": -7.495541701778289, "train/policy_logprob_std": 1.2020563017937445, "train/policy_randomness_mag": 0.9385775543028309, "train/policy_randomness_max": 0.9385775543028309, "train/policy_randomness_mean": 0.24754288984883216, "train/policy_randomness_min": 0.02774425811104236, "train/policy_randomness_std": 0.2378088556951092, "train/post_ent_mag": 64.42236938476563, "train/post_ent_max": 64.42236938476563, "train/post_ent_mean": 40.09486475298482, "train/post_ent_min": 10.971583458685107, "train/post_ent_std": 5.642177311066658, "train/prior_ent_mag": 85.48163053451046, "train/prior_ent_max": 85.48163053451046, "train/prior_ent_mean": 42.90939503331338, "train/prior_ent_min": 13.124764922357375, "train/prior_ent_std": 7.859725226125409, "train/rep_loss_mean": 2.7933974865944156, "train/rep_loss_std": 5.974839044386341, "train/reward_avg": 1.3355594758064515, "train/reward_loss_mean": 0.06069142808837275, "train/reward_loss_std": 0.20929769200663412, "train/reward_max_data": 278.06451612903226, "train/reward_max_pred": 229.83175912672473, "train/reward_neg_acc": 0.9853792194397218, "train/reward_neg_loss": 0.004809015407978046, "train/reward_pos_acc": 0.9974758551966759, "train/reward_pos_loss": 0.594960823751265, "train/reward_pred": 1.221291188270815, "train/reward_rate": 0.09478326612903226, "train_stats/mean_log_entropy": 0.5963603109121323, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.1959062905807514e-06, "report/cont_loss_std": 3.9093185478122905e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.5282648493885063e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.173338543798309e-06, "report/cont_pred": 0.9990212917327881, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.541783332824707, "report/dyn_loss_std": 5.781337261199951, "report/image_loss_mean": 0.7176253795623779, "report/image_loss_std": 0.6868672966957092, "report/model_loss_mean": 2.306434392929077, "report/model_loss_std": 3.944887399673462, "report/post_ent_mag": 64.87156677246094, "report/post_ent_max": 64.87156677246094, "report/post_ent_mean": 41.0252799987793, "report/post_ent_min": 13.699472427368164, "report/post_ent_std": 5.695637226104736, "report/prior_ent_mag": 85.80474853515625, "report/prior_ent_max": 85.80474853515625, "report/prior_ent_mean": 43.41014862060547, "report/prior_ent_min": 13.932944297790527, "report/prior_ent_std": 7.927798271179199, "report/rep_loss_mean": 2.541783332824707, "report/rep_loss_std": 5.781337261199951, "report/reward_avg": 1.474609375, "report/reward_loss_mean": 0.0637366846203804, "report/reward_loss_std": 0.22188273072242737, "report/reward_max_data": 500.0, "report/reward_max_pred": 495.7575988769531, "report/reward_neg_acc": 0.9869989156723022, "report/reward_neg_loss": 0.0031567784026265144, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6173530220985413, "report/reward_pred": 1.4264814853668213, "report/reward_rate": 0.0986328125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0233401320874691, "eval/cont_loss_std": 0.4769412577152252, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.881988525390625, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0002490993938408792, "eval/cont_pred": 0.9997532367706299, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.964237213134766, "eval/dyn_loss_std": 10.119269371032715, "eval/image_loss_mean": 1.9826977252960205, "eval/image_loss_std": 1.9769270420074463, "eval/model_loss_mean": 7.90155029296875, "eval/model_loss_std": 7.962370872497559, "eval/post_ent_mag": 63.816925048828125, "eval/post_ent_max": 63.816925048828125, "eval/post_ent_mean": 40.22188186645508, "eval/post_ent_min": 8.965988159179688, "eval/post_ent_std": 5.737738132476807, "eval/prior_ent_mag": 85.80474853515625, "eval/prior_ent_max": 85.80474853515625, "eval/prior_ent_mean": 44.9569206237793, "eval/prior_ent_min": 10.109262466430664, "eval/prior_ent_std": 8.476109504699707, "eval/rep_loss_mean": 8.964237213134766, "eval/rep_loss_std": 10.119269371032715, "eval/reward_avg": 2.08984375, "eval/reward_loss_mean": 0.5169702768325806, "eval/reward_loss_std": 2.292407989501953, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 490.1898498535156, "eval/reward_neg_acc": 0.9383259415626526, "eval/reward_neg_loss": 0.08143828809261322, "eval/reward_pos_acc": 0.6896551847457886, "eval/reward_pos_loss": 3.9261348247528076, "eval/reward_pred": 1.2784702777862549, "eval/reward_rate": 0.11328125, "replay/size": 177878.0, "replay/inserts": 1556.0, "replay/samples": 24896.0, "replay/insert_wait_avg": 4.386227664113964e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3728700290915285e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14612460136414, "timer/replay._sample_count": 24896.0, "timer/replay._sample_total": 408.03497314453125, "timer/replay._sample_frac": 1.3594544113686575, "timer/replay._sample_avg": 0.016389579576820825, "timer/replay._sample_min": 0.0006878376007080078, "timer/replay._sample_max": 0.05563759803771973, "timer/env.step_count": 1556.0, "timer/env.step_total": 6.638769149780273, "timer/env.step_frac": 0.02211845699689604, "timer/env.step_avg": 0.004266561150244392, "timer/env.step_min": 0.002095460891723633, "timer/env.step_max": 0.03268861770629883, "timer/agent.policy_count": 1556.0, "timer/agent.policy_total": 113.85652422904968, "timer/agent.policy_frac": 0.3793369792139312, "timer/agent.policy_avg": 0.07317257341198566, "timer/agent.policy_min": 0.002810239791870117, "timer/agent.policy_max": 0.08797669410705566, "timer/dataset_train_count": 1556.0, "timer/dataset_train_total": 0.15003418922424316, "timer/dataset_train_frac": 0.0004998704861623966, "timer/dataset_train_avg": 9.642300078678867e-05, "timer/dataset_train_min": 5.173683166503906e-05, "timer/dataset_train_max": 0.00020241737365722656, "timer/agent.train_count": 1556.0, "timer/agent.train_total": 178.34747052192688, "timer/agent.train_frac": 0.5942021432353897, "timer/agent.train_avg": 0.11461919699352627, "timer/agent.train_min": 0.10051107406616211, "timer/agent.train_max": 0.20162749290466309, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2619178295135498, "timer/agent.report_frac": 0.000872634387205276, "timer/agent.report_avg": 0.1309589147567749, "timer/agent.report_min": 0.10012626647949219, "timer/agent.report_max": 0.16179156303405762, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.033348083496094e-05, "timer/dataset_eval_frac": 2.34330797801816e-07, "timer/dataset_eval_avg": 7.033348083496094e-05, "timer/dataset_eval_min": 7.033348083496094e-05, "timer/dataset_eval_max": 7.033348083496094e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.73513010536844}
{"step": 586592, "episode/length": 377.0, "episode/score": 970.0, "episode/reward_rate": 0.12698412698412698}
{"step": 588308, "episode/length": 428.0, "episode/score": 520.0, "episode/reward_rate": 0.11888111888111888}
{"step": 589908, "episode/length": 399.0, "episode/score": 1010.0, "episode/reward_rate": 0.13}
{"step": 591516, "episode/length": 401.0, "episode/score": 1010.0, "episode/reward_rate": 0.12935323383084577}
{"step": 592012, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.598531478490585, "train/action_min": 0.0, "train/action_std": 4.288714190324147, "train/actor_opt_grad_norm": 0.00884146500343027, "train/actor_opt_grad_steps": 146125.0, "train/actor_opt_loss": -1.4703496407701796e-05, "train/adv_mag": 0.9112789848676095, "train/adv_max": 0.878114804912072, "train/adv_mean": 0.0024664113695554335, "train/adv_min": -0.5665715320561177, "train/adv_std": 0.0428981254211603, "train/cont_avg": 0.9981658153044872, "train/cont_loss_mean": 0.00040496759523163856, "train/cont_loss_std": 0.01040006851270832, "train/cont_neg_acc": 0.9428395068203962, "train/cont_neg_loss": 0.1329615670775015, "train/cont_pos_acc": 0.9999372168229177, "train/cont_pos_loss": 0.00015259936738413847, "train/cont_pred": 0.998166201206354, "train/cont_rate": 0.9981658153044872, "train/dyn_loss_mean": 2.7711227169403663, "train/dyn_loss_std": 5.967305259826856, "train/extr_critic_critic_opt_grad_norm": 1.496478489194161, "train/extr_critic_critic_opt_grad_steps": 146125.0, "train/extr_critic_critic_opt_loss": 1.370509236286848, "train/extr_critic_mag": 479.05677501971905, "train/extr_critic_max": 479.05677501971905, "train/extr_critic_mean": 236.60135914729193, "train/extr_critic_min": 0.2470400448028858, "train/extr_critic_std": 154.16822428581042, "train/extr_return_normed_mag": 1.49367482539935, "train/extr_return_normed_max": 1.49367482539935, "train/extr_return_normed_mean": 0.5319993589551021, "train/extr_return_normed_min": -0.016296636140069518, "train/extr_return_normed_std": 0.35961043414397115, "train/extr_return_rate": 0.9396927215349979, "train/extr_return_raw_mag": 654.275746467786, "train/extr_return_raw_max": 654.275746467786, "train/extr_return_raw_mean": 237.66982494256436, "train/extr_return_raw_min": 0.20540075628266025, "train/extr_return_raw_std": 155.7585451175005, "train/extr_reward_mag": 361.0062338755681, "train/extr_reward_max": 361.0062338755681, "train/extr_reward_mean": 1.228173081500408, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.58055647672751, "train/image_loss_mean": 0.8717162876557081, "train/image_loss_std": 0.7766437041453826, "train/model_loss_mean": 2.5959485387190795, "train/model_loss_std": 4.087073535491259, "train/model_opt_grad_norm": 9.521804393866123, "train/model_opt_grad_steps": 146125.0, "train/model_opt_loss": 2.5959485387190795, "train/policy_entropy_mag": 2.7222297894649015, "train/policy_entropy_max": 2.7222297894649015, "train/policy_entropy_mean": 0.7267097773460242, "train/policy_entropy_min": 0.08019125595306739, "train/policy_entropy_std": 0.696877156312649, "train/policy_logprob_mag": 7.495541655100309, "train/policy_logprob_max": -0.009489543073309155, "train/policy_logprob_mean": -0.7278012524430568, "train/policy_logprob_min": -7.495541655100309, "train/policy_logprob_std": 1.2092827268135853, "train/policy_randomness_mag": 0.9418268899122874, "train/policy_randomness_max": 0.9418268899122874, "train/policy_randomness_mean": 0.25142433245976764, "train/policy_randomness_min": 0.027744271099949494, "train/policy_randomness_std": 0.24110295422948325, "train/post_ent_mag": 64.2790075937907, "train/post_ent_max": 64.2790075937907, "train/post_ent_mean": 40.05283974378537, "train/post_ent_min": 11.383715932185833, "train/post_ent_std": 5.682564934094747, "train/prior_ent_mag": 85.5586810967861, "train/prior_ent_max": 85.5586810967861, "train/prior_ent_mean": 42.85448619646904, "train/prior_ent_min": 13.456200984808115, "train/prior_ent_std": 7.887025298216404, "train/rep_loss_mean": 2.7711227169403663, "train/rep_loss_std": 5.967305259826856, "train/reward_avg": 1.3835887419871795, "train/reward_loss_mean": 0.061153664659613215, "train/reward_loss_std": 0.2174031701989663, "train/reward_max_data": 304.7435897435897, "train/reward_max_pred": 269.32925728651196, "train/reward_neg_acc": 0.9860881716012955, "train/reward_neg_loss": 0.00425548164639622, "train/reward_pos_acc": 0.9959393063416848, "train/reward_pos_loss": 0.604934784464347, "train/reward_pred": 1.2835979434924247, "train/reward_rate": 0.09525866386217949, "train_stats/mean_log_entropy": 0.5944947749376297, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.0030068440828472376, "report/cont_loss_std": 0.08404777944087982, "report/cont_neg_acc": 0.75, "report/cont_neg_loss": 0.7692869901657104, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 1.823996740313305e-06, "report/cont_pred": 0.9973394870758057, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.457202434539795, "report/dyn_loss_std": 5.805233478546143, "report/image_loss_mean": 0.6822742819786072, "report/image_loss_std": 0.6721416115760803, "report/model_loss_mean": 2.2291905879974365, "report/model_loss_std": 3.9261693954467773, "report/post_ent_mag": 66.38172912597656, "report/post_ent_max": 66.38172912597656, "report/post_ent_mean": 39.173240661621094, "report/post_ent_min": 10.183300018310547, "report/post_ent_std": 6.1062822341918945, "report/prior_ent_mag": 85.90655517578125, "report/prior_ent_max": 85.90655517578125, "report/prior_ent_mean": 41.64582824707031, "report/prior_ent_min": 11.899201393127441, "report/prior_ent_std": 8.539728164672852, "report/rep_loss_mean": 2.457202434539795, "report/rep_loss_std": 5.805233478546143, "report/reward_avg": 1.181640625, "report/reward_loss_mean": 0.06958799064159393, "report/reward_loss_std": 0.21278589963912964, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.01159954071045, "report/reward_neg_acc": 0.9944629073143005, "report/reward_neg_loss": 0.0008577867411077023, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5825083255767822, "report/reward_pred": 1.1449816226959229, "report/reward_rate": 0.1181640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.018765494227409363, "eval/cont_loss_std": 0.6001884937286377, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 19.215417861938477, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.386222940411244e-07, "eval/cont_pred": 0.9999995827674866, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.099044799804688, "eval/dyn_loss_std": 10.735466957092285, "eval/image_loss_mean": 2.9161877632141113, "eval/image_loss_std": 2.6713945865631104, "eval/model_loss_mean": 10.692239761352539, "eval/model_loss_std": 9.063482284545898, "eval/post_ent_mag": 65.98933410644531, "eval/post_ent_max": 65.98933410644531, "eval/post_ent_mean": 40.649322509765625, "eval/post_ent_min": 15.96289348602295, "eval/post_ent_std": 5.111268520355225, "eval/prior_ent_mag": 85.90655517578125, "eval/prior_ent_max": 85.90655517578125, "eval/prior_ent_mean": 45.591712951660156, "eval/prior_ent_min": 21.385597229003906, "eval/prior_ent_std": 7.405174255371094, "eval/rep_loss_mean": 12.099044799804688, "eval/rep_loss_std": 10.735466957092285, "eval/reward_avg": 1.38671875, "eval/reward_loss_mean": 0.49786022305488586, "eval/reward_loss_std": 2.4850926399230957, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 489.84033203125, "eval/reward_neg_acc": 0.9527390003204346, "eval/reward_neg_loss": 0.08151399344205856, "eval/reward_pos_acc": 0.6774193644523621, "eval/reward_pos_loss": 4.665799140930176, "eval/reward_pred": 1.1459403038024902, "eval/reward_rate": 0.0908203125, "replay/size": 179434.0, "replay/inserts": 1556.0, "replay/samples": 24896.0, "replay/insert_wait_avg": 4.350066491448174e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3607843829304516e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0926856994629, "timer/replay._sample_count": 24896.0, "timer/replay._sample_total": 407.08164644241333, "timer/replay._sample_frac": 1.3565197215439562, "timer/replay._sample_avg": 0.016351287212500537, "timer/replay._sample_min": 0.0006639957427978516, "timer/replay._sample_max": 0.0472102165222168, "timer/env.step_count": 1556.0, "timer/env.step_total": 6.689467191696167, "timer/env.step_frac": 0.02229133701177756, "timer/env.step_avg": 0.004299143439393424, "timer/env.step_min": 0.0017099380493164062, "timer/env.step_max": 0.02827143669128418, "timer/agent.policy_count": 1556.0, "timer/agent.policy_total": 113.78116178512573, "timer/agent.policy_frac": 0.3791533989571322, "timer/agent.policy_avg": 0.07312413996473376, "timer/agent.policy_min": 0.0029990673065185547, "timer/agent.policy_max": 0.08800530433654785, "timer/dataset_train_count": 1556.0, "timer/dataset_train_total": 0.14841151237487793, "timer/dataset_train_frac": 0.0004945522481794482, "timer/dataset_train_avg": 9.538014934118118e-05, "timer/dataset_train_min": 5.030632019042969e-05, "timer/dataset_train_max": 0.00021266937255859375, "timer/agent.train_count": 1556.0, "timer/agent.train_total": 178.30675673484802, "timer/agent.train_frac": 0.5941722848700779, "timer/agent.train_avg": 0.11459303132059642, "timer/agent.train_min": 0.10045576095581055, "timer/agent.train_max": 0.20229578018188477, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26525306701660156, "timer/agent.report_frac": 0.0008839038059136418, "timer/agent.report_avg": 0.13262653350830078, "timer/agent.report_min": 0.09788274765014648, "timer/agent.report_max": 0.16737031936645508, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.173683166503906e-05, "timer/dataset_eval_frac": 1.7240284129034894e-07, "timer/dataset_eval_avg": 5.173683166503906e-05, "timer/dataset_eval_min": 5.173683166503906e-05, "timer/dataset_eval_max": 5.173683166503906e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.738988555831344}
{"step": 593212, "episode/length": 423.0, "episode/score": 1030.0, "episode/reward_rate": 0.12735849056603774}
{"step": 594844, "episode/length": 407.0, "episode/score": 900.0, "episode/reward_rate": 0.10049019607843138}
{"step": 596464, "episode/length": 404.0, "episode/score": 980.0, "episode/reward_rate": 0.11851851851851852}
{"step": 598224, "episode/length": 439.0, "episode/score": 1040.0, "episode/reward_rate": 0.125}
{"step": 598228, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.599698761970766, "train/action_min": 0.0, "train/action_std": 4.280535648715111, "train/actor_opt_grad_norm": 0.009087720167853178, "train/actor_opt_grad_steps": 147680.0, "train/actor_opt_loss": 3.594421154444248e-05, "train/adv_mag": 0.9169245827582575, "train/adv_max": 0.889073996774612, "train/adv_mean": 0.002488328796067846, "train/adv_min": -0.5976778834096848, "train/adv_std": 0.04341245378938413, "train/cont_avg": 0.9981728830645161, "train/cont_loss_mean": 0.0004707801707510152, "train/cont_loss_std": 0.012961287424028276, "train/cont_neg_acc": 0.9338164260421974, "train/cont_neg_loss": 0.14640405818661986, "train/cont_pos_acc": 0.9999368559929632, "train/cont_pos_loss": 0.00019448439164370076, "train/cont_pred": 0.9981887663564374, "train/cont_rate": 0.9981728830645161, "train/dyn_loss_mean": 2.74986401988614, "train/dyn_loss_std": 5.970182486503355, "train/extr_critic_critic_opt_grad_norm": 1.4926708786718308, "train/extr_critic_critic_opt_grad_steps": 147680.0, "train/extr_critic_critic_opt_loss": 1.368987097278718, "train/extr_critic_mag": 486.69103905462447, "train/extr_critic_max": 486.69103905462447, "train/extr_critic_mean": 241.75853241951233, "train/extr_critic_min": 0.6651998412224555, "train/extr_critic_std": 155.09558445099862, "train/extr_return_normed_mag": 1.5129687539992793, "train/extr_return_normed_max": 1.5129687539992793, "train/extr_return_normed_mean": 0.5418542221669228, "train/extr_return_normed_min": -0.015722873380347606, "train/extr_return_normed_std": 0.36009668304074194, "train/extr_return_rate": 0.9397799526491473, "train/extr_return_raw_mag": 665.1759505733366, "train/extr_return_raw_max": 665.1759505733366, "train/extr_return_raw_mean": 242.841013656124, "train/extr_return_raw_min": 0.4438067536793589, "train/extr_return_raw_std": 156.5573001984627, "train/extr_reward_mag": 362.76597779181697, "train/extr_reward_max": 362.76597779181697, "train/extr_reward_mean": 1.2281202327820562, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.651505824058287, "train/image_loss_mean": 0.8620448408588286, "train/image_loss_std": 0.7714837228098224, "train/model_loss_mean": 2.574575794896772, "train/model_loss_std": 4.083711725665677, "train/model_opt_grad_norm": 9.062338767513152, "train/model_opt_grad_steps": 147680.0, "train/model_opt_loss": 2.574575794896772, "train/policy_entropy_mag": 2.732323694229126, "train/policy_entropy_max": 2.732323694229126, "train/policy_entropy_mean": 0.7214501934666787, "train/policy_entropy_min": 0.08019123750348245, "train/policy_entropy_std": 0.6948063146683477, "train/policy_logprob_mag": 7.495541544883482, "train/policy_logprob_max": -0.009489544565158506, "train/policy_logprob_mean": -0.7221694465606443, "train/policy_logprob_min": -7.495541544883482, "train/policy_logprob_std": 1.2059712579173427, "train/policy_randomness_mag": 0.9453191426492507, "train/policy_randomness_max": 0.9453191426492507, "train/policy_randomness_mean": 0.2496046434487066, "train/policy_randomness_min": 0.027744264636308916, "train/policy_randomness_std": 0.24038649076415647, "train/post_ent_mag": 64.73678251697172, "train/post_ent_max": 64.73678251697172, "train/post_ent_mean": 39.964547434160785, "train/post_ent_min": 10.80048390357725, "train/post_ent_std": 5.644258031537456, "train/prior_ent_mag": 85.54473000803301, "train/prior_ent_max": 85.54473000803301, "train/prior_ent_mean": 42.75185263849074, "train/prior_ent_min": 13.180835779251591, "train/prior_ent_std": 7.861043151732414, "train/rep_loss_mean": 2.74986401988614, "train/rep_loss_std": 5.970182486503355, "train/reward_avg": 1.3658014112903225, "train/reward_loss_mean": 0.06214173061232413, "train/reward_loss_std": 0.21406472604120932, "train/reward_max_data": 288.0, "train/reward_max_pred": 261.9443259639125, "train/reward_neg_acc": 0.98555069123545, "train/reward_neg_loss": 0.004705838027650551, "train/reward_pos_acc": 0.9973713559489097, "train/reward_pos_loss": 0.5965452017322663, "train/reward_pred": 1.2850218365269324, "train/reward_rate": 0.09718371975806452, "train_stats/mean_log_entropy": 0.6715895235538483, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0009660539217293262, "report/cont_loss_std": 0.024095123633742332, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.027303406968712807, "report/cont_pos_acc": 0.9990215301513672, "report/cont_pos_loss": 0.0009145130752585828, "report/cont_pred": 0.9974151253700256, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7495784759521484, "report/dyn_loss_std": 6.147716999053955, "report/image_loss_mean": 0.8127040266990662, "report/image_loss_std": 0.8296472430229187, "report/model_loss_mean": 2.5155301094055176, "report/model_loss_std": 4.254148006439209, "report/post_ent_mag": 67.1090087890625, "report/post_ent_max": 67.1090087890625, "report/post_ent_mean": 39.6309700012207, "report/post_ent_min": 8.160504341125488, "report/post_ent_std": 6.378988742828369, "report/prior_ent_mag": 85.5476303100586, "report/prior_ent_max": 85.5476303100586, "report/prior_ent_mean": 42.37897491455078, "report/prior_ent_min": 9.456280708312988, "report/prior_ent_std": 8.317572593688965, "report/rep_loss_mean": 2.7495784759521484, "report/rep_loss_std": 6.147716999053955, "report/reward_avg": 1.23046875, "report/reward_loss_mean": 0.05211290717124939, "report/reward_loss_std": 0.20348988473415375, "report/reward_max_data": 500.0, "report/reward_max_pred": 483.841796875, "report/reward_neg_acc": 0.9820675849914551, "report/reward_neg_loss": 0.008050154894590378, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6017377972602844, "report/reward_pred": 1.1997779607772827, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.024589821696281433, "eval/cont_loss_std": 0.5089522004127502, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 8.374433517456055, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.55116894247476e-05, "eval/cont_pred": 0.9998543858528137, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.883739471435547, "eval/dyn_loss_std": 10.54198932647705, "eval/image_loss_mean": 2.9050331115722656, "eval/image_loss_std": 2.6206159591674805, "eval/model_loss_mean": 9.836156845092773, "eval/model_loss_std": 8.68930721282959, "eval/post_ent_mag": 67.1090087890625, "eval/post_ent_max": 67.1090087890625, "eval/post_ent_mean": 40.556915283203125, "eval/post_ent_min": 19.781902313232422, "eval/post_ent_std": 5.296761512756348, "eval/prior_ent_mag": 85.5476303100586, "eval/prior_ent_max": 85.5476303100586, "eval/prior_ent_mean": 45.58028030395508, "eval/prior_ent_min": 23.904579162597656, "eval/prior_ent_std": 7.709063529968262, "eval/rep_loss_mean": 10.883739471435547, "eval/rep_loss_std": 10.54198932647705, "eval/reward_avg": 0.830078125, "eval/reward_loss_mean": 0.3762892484664917, "eval/reward_loss_std": 1.9194598197937012, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004725456237793, "eval/reward_neg_acc": 0.9542065858840942, "eval/reward_neg_loss": 0.0526181161403656, "eval/reward_pos_acc": 0.6705882549285889, "eval/reward_pos_loss": 3.9519028663635254, "eval/reward_pred": 0.6195381879806519, "eval/reward_rate": 0.0830078125, "replay/size": 180988.0, "replay/inserts": 1554.0, "replay/samples": 24864.0, "replay/insert_wait_avg": 4.355204765093986e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.37912452297628e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.816319465637207e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1459467411041, "timer/replay._sample_count": 24864.0, "timer/replay._sample_total": 411.80405831336975, "timer/replay._sample_frac": 1.3720127250912977, "timer/replay._sample_avg": 0.016562261032551873, "timer/replay._sample_min": 0.0009930133819580078, "timer/replay._sample_max": 0.04908609390258789, "timer/env.step_count": 1554.0, "timer/env.step_total": 6.689103364944458, "timer/env.step_frac": 0.022286169237241957, "timer/env.step_avg": 0.004304442319784079, "timer/env.step_min": 0.0019545555114746094, "timer/env.step_max": 0.035645246505737305, "timer/agent.policy_count": 1554.0, "timer/agent.policy_total": 113.72205424308777, "timer/agent.policy_frac": 0.37888918866920634, "timer/agent.policy_avg": 0.07318021508564207, "timer/agent.policy_min": 0.002996206283569336, "timer/agent.policy_max": 0.1775219440460205, "timer/dataset_train_count": 1554.0, "timer/dataset_train_total": 0.1479027271270752, "timer/dataset_train_frac": 0.0004927693634811972, "timer/dataset_train_avg": 9.517550008177297e-05, "timer/dataset_train_min": 5.3882598876953125e-05, "timer/dataset_train_max": 0.00022721290588378906, "timer/agent.train_count": 1554.0, "timer/agent.train_total": 178.28884649276733, "timer/agent.train_frac": 0.594007176937003, "timer/agent.train_avg": 0.11472898744708322, "timer/agent.train_min": 0.10030770301818848, "timer/agent.train_max": 0.20131230354309082, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.267777681350708, "timer/agent.report_frac": 0.0008921582458739118, "timer/agent.report_avg": 0.133888840675354, "timer/agent.report_min": 0.10191941261291504, "timer/agent.report_max": 0.16585826873779297, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.3882598876953125e-05, "timer/dataset_eval_frac": 1.795213277473657e-07, "timer/dataset_eval_avg": 5.3882598876953125e-05, "timer/dataset_eval_min": 5.3882598876953125e-05, "timer/dataset_eval_max": 5.3882598876953125e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15891242027282715, "timer/agent.save_frac": 0.0005294504956613647, "timer/agent.save_avg": 0.15891242027282715, "timer/agent.save_min": 0.15891242027282715, "timer/agent.save_max": 0.15891242027282715, "fps": 20.7086581491988}
{"step": 599964, "episode/length": 434.0, "episode/score": 1040.0, "episode/reward_rate": 0.12413793103448276}
{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.80059814453125, "train/action_min": 0.0, "train/action_std": 4.219600200653076, "train/actor_opt_grad_norm": 0.010520683601498604, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0015639609191566706, "train/adv_mag": 0.8927021026611328, "train/adv_max": 0.8927021026611328, "train/adv_mean": 0.003956018481403589, "train/adv_min": -0.7956993579864502, "train/adv_std": 0.054934751242399216, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 0.00011236605496378615, "train/cont_loss_std": 0.003589094150811434, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.11490724980831146, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.5208772197183862e-07, "train/cont_pred": 0.9991292953491211, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 2.6697587966918945, "train/dyn_loss_std": 5.415921211242676, "train/extr_critic_critic_opt_grad_norm": 1.5826665163040161, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.3732415437698364, "train/extr_critic_mag": 491.24639892578125, "train/extr_critic_max": 491.24639892578125, "train/extr_critic_mean": 259.4638366699219, "train/extr_critic_min": 0.0002872943878173828, "train/extr_critic_std": 141.85116577148438, "train/extr_return_normed_mag": 1.4176626205444336, "train/extr_return_normed_max": 1.4176626205444336, "train/extr_return_normed_mean": 0.5877447724342346, "train/extr_return_normed_min": -0.01441318541765213, "train/extr_return_normed_std": 0.3318384885787964, "train/extr_return_rate": 0.9788411855697632, "train/extr_return_raw_mag": 621.14794921875, "train/extr_return_raw_max": 621.14794921875, "train/extr_return_raw_mean": 261.1796875, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 143.93148803710938, "train/extr_reward_mag": 500.6406555175781, "train/extr_reward_max": 500.6406555175781, "train/extr_reward_mean": 1.625246524810791, "train/extr_reward_min": 0.0, "train/extr_reward_std": 16.595638275146484, "train/image_loss_mean": 0.7776200771331787, "train/image_loss_std": 0.7053849697113037, "train/model_loss_mean": 2.4587440490722656, "train/model_loss_std": 3.6504156589508057, "train/model_opt_grad_norm": 7.251718521118164, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.4587440490722656, "train/policy_entropy_mag": 2.684438705444336, "train/policy_entropy_max": 2.684438705444336, "train/policy_entropy_mean": 0.6181504130363464, "train/policy_entropy_min": 0.08019116520881653, "train/policy_entropy_std": 0.5625900626182556, "train/policy_logprob_mag": 7.495542049407959, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.6096831560134888, "train/policy_logprob_min": -7.495542049407959, "train/policy_logprob_std": 1.1280453205108643, "train/policy_randomness_mag": 0.928752064704895, "train/policy_randomness_max": 0.928752064704895, "train/policy_randomness_mean": 0.21386536955833435, "train/policy_randomness_min": 0.027744239196181297, "train/policy_randomness_std": 0.1946428120136261, "train/post_ent_mag": 64.93806457519531, "train/post_ent_max": 64.93806457519531, "train/post_ent_mean": 40.65435791015625, "train/post_ent_min": 15.156026840209961, "train/post_ent_std": 5.523922443389893, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.53082275390625, "train/prior_ent_min": 18.886539459228516, "train/prior_ent_std": 7.384696960449219, "train/rep_loss_mean": 2.6697587966918945, "train/rep_loss_std": 5.415921211242676, "train/reward_avg": 2.099609375, "train/reward_loss_mean": 0.07915620505809784, "train/reward_loss_std": 0.2537969648838043, "train/reward_max_data": 500.0, "train/reward_max_pred": 491.0333251953125, "train/reward_neg_acc": 0.9735391736030579, "train/reward_neg_loss": 0.01126720942556858, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.6054409742355347, "train/reward_pred": 1.8448355197906494, "train/reward_rate": 0.1142578125, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.711930159828626e-06, "report/cont_loss_std": 0.0001397740124957636, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.004471975844353437, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.451041834523494e-07, "report/cont_pred": 0.9990274906158447, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.7234702110290527, "report/dyn_loss_std": 5.51052188873291, "report/image_loss_mean": 0.7880902886390686, "report/image_loss_std": 0.7362015247344971, "report/model_loss_mean": 2.4974992275238037, "report/model_loss_std": 3.7938475608825684, "report/post_ent_mag": 64.90459442138672, "report/post_ent_max": 64.90459442138672, "report/post_ent_mean": 40.761817932128906, "report/post_ent_min": 16.399959564208984, "report/post_ent_std": 5.577918529510498, "report/prior_ent_mag": 85.1936264038086, "report/prior_ent_max": 85.1936264038086, "report/prior_ent_mean": 43.55133056640625, "report/prior_ent_min": 18.844942092895508, "report/prior_ent_std": 7.415652275085449, "report/rep_loss_mean": 2.7234702110290527, "report/rep_loss_std": 5.51052188873291, "report/reward_avg": 2.099609375, "report/reward_loss_mean": 0.07532208412885666, "report/reward_loss_std": 0.23280145227909088, "report/reward_max_data": 500.0, "report/reward_max_pred": 497.3918762207031, "report/reward_neg_acc": 0.9823594689369202, "report/reward_neg_loss": 0.008359154686331749, "report/reward_pos_acc": 0.9914530515670776, "report/reward_pos_loss": 0.5944278836250305, "report/reward_pred": 1.9978504180908203, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002640486229211092, "eval/cont_loss_std": 0.04898378252983093, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.014866437762975693, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0026285352651029825, "eval/cont_pred": 0.9972838163375854, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.182963371276855, "eval/dyn_loss_std": 10.793025970458984, "eval/image_loss_mean": 3.3326125144958496, "eval/image_loss_std": 3.23372745513916, "eval/model_loss_mean": 10.31784439086914, "eval/model_loss_std": 9.400382995605469, "eval/post_ent_mag": 62.389686584472656, "eval/post_ent_max": 62.389686584472656, "eval/post_ent_mean": 39.99258804321289, "eval/post_ent_min": 12.325700759887695, "eval/post_ent_std": 5.2909722328186035, "eval/prior_ent_mag": 85.1936264038086, "eval/prior_ent_max": 85.1936264038086, "eval/prior_ent_mean": 45.26927947998047, "eval/prior_ent_min": 14.195111274719238, "eval/prior_ent_std": 7.2824554443359375, "eval/rep_loss_mean": 11.182963371276855, "eval/rep_loss_std": 10.793025970458984, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2728145122528076, "eval/reward_loss_std": 1.569656491279602, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.010217666625977, "eval/reward_neg_acc": 0.9581993222236633, "eval/reward_neg_loss": 0.02484184317290783, "eval/reward_pos_acc": 0.7802197933197021, "eval/reward_pos_loss": 2.815215826034546, "eval/reward_pred": 0.6641682386398315, "eval/reward_rate": 0.0888671875, "replay/size": 336216.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.930764743259975e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.092548779078892e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 93.91599106788635, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 17.448565006256104, "timer/replay._sample_frac": 0.18578907391440463, "timer/replay._sample_avg": 0.15579075898442948, "timer/replay._sample_min": 0.01990818977355957, "timer/replay._sample_max": 0.7409021854400635, "timer/env.step_count": 1.0, "timer/env.step_total": 0.027825355529785156, "timer/env.step_frac": 0.00029627920882687424, "timer/env.step_avg": 0.027825355529785156, "timer/env.step_min": 0.027825355529785156, "timer/env.step_max": 0.027825355529785156, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.221211433410645, "timer/agent.policy_frac": 0.10883355770608151, "timer/agent.policy_avg": 10.221211433410645, "timer/agent.policy_min": 10.221211433410645, "timer/agent.policy_max": 10.221211433410645, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 0.0001308917999267578, "timer/dataset_train_frac": 1.3937115334506115e-06, "timer/dataset_train_avg": 0.0001308917999267578, "timer/dataset_train_min": 0.0001308917999267578, "timer/dataset_train_max": 0.0001308917999267578, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.728724241256714, "timer/agent.train_frac": 0.5933890874981418, "timer/agent.train_avg": 55.728724241256714, "timer/agent.train_min": 55.728724241256714, "timer/agent.train_max": 55.728724241256714, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.358327865600586, "timer/agent.report_frac": 0.12094136191769853, "timer/agent.report_avg": 5.679163932800293, "timer/agent.report_min": 0.09894275665283203, "timer/agent.report_max": 11.259385108947754, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00015616416931152344, "timer/dataset_eval_frac": 1.6628070207835163e-06, "timer/dataset_eval_avg": 0.00015616416931152344, "timer/dataset_eval_min": 0.00015616416931152344, "timer/dataset_eval_max": 0.00015616416931152344}
{"step": 595628, "episode/length": 406.0, "episode/score": 1010.0, "episode/reward_rate": 0.12530712530712532}
{"step": 597344, "episode/length": 428.0, "episode/score": 520.0, "episode/reward_rate": 0.12121212121212122}
{"step": 599124, "episode/length": 444.0, "episode/score": 1040.0, "episode/reward_rate": 0.12359550561797752}
{"step": 599908, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.552995539035926, "train/action_min": 0.0, "train/action_std": 4.267400368541276, "train/actor_opt_grad_norm": 0.009043502958719524, "train/actor_opt_grad_steps": 148140.0, "train/actor_opt_loss": 0.0002466963164992268, "train/adv_mag": 0.8927655789722391, "train/adv_max": 0.844369844615865, "train/adv_mean": 0.0026835660251630805, "train/adv_min": -0.6054186174253218, "train/adv_std": 0.042274546720797106, "train/cont_avg": 0.9980535182823129, "train/cont_loss_mean": 0.0003993037167700682, "train/cont_loss_std": 0.009962216457329977, "train/cont_neg_acc": 0.9657552093267441, "train/cont_neg_loss": 0.09198566269347097, "train/cont_pos_acc": 0.9999333652509313, "train/cont_pos_loss": 0.0001809856834382426, "train/cont_pred": 0.9980198023270588, "train/cont_rate": 0.9980535182823129, "train/dyn_loss_mean": 2.8922441670683776, "train/dyn_loss_std": 6.1442958254392455, "train/extr_critic_critic_opt_grad_norm": 1.5348969308697447, "train/extr_critic_critic_opt_grad_steps": 148140.0, "train/extr_critic_critic_opt_loss": 1.40954260112477, "train/extr_critic_mag": 491.4321496665072, "train/extr_critic_max": 491.4321496665072, "train/extr_critic_mean": 245.0358991558049, "train/extr_critic_min": 0.20763004799278414, "train/extr_critic_std": 158.77975495007573, "train/extr_return_normed_mag": 1.482915220617437, "train/extr_return_normed_max": 1.482915220617437, "train/extr_return_normed_mean": 0.5447391565559673, "train/extr_return_normed_min": -0.016299669725858435, "train/extr_return_normed_std": 0.3651515255574466, "train/extr_return_rate": 0.9405010391254814, "train/extr_return_raw_mag": 657.7441042945499, "train/extr_return_raw_max": 657.7441042945499, "train/extr_return_raw_mean": 246.21355661405187, "train/extr_return_raw_min": 0.14194789938032737, "train/extr_return_raw_std": 160.1324594199252, "train/extr_reward_mag": 347.26527521561604, "train/extr_reward_max": 347.26527521561604, "train/extr_reward_mean": 1.2774955747889825, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.421935263134184, "train/image_loss_mean": 0.8772031968953659, "train/image_loss_std": 0.8088811984678514, "train/model_loss_mean": 2.6788458807938764, "train/model_loss_std": 4.220568094123789, "train/model_opt_grad_norm": 8.993757766931235, "train/model_opt_grad_steps": 148140.0, "train/model_opt_loss": 2.6788458807938764, "train/policy_entropy_mag": 2.745807860173336, "train/policy_entropy_max": 2.745807860173336, "train/policy_entropy_mean": 0.7101222134771801, "train/policy_entropy_min": 0.0801912147779854, "train/policy_entropy_std": 0.6955917303254004, "train/policy_logprob_mag": 7.495541760710632, "train/policy_logprob_max": -0.009489541151085678, "train/policy_logprob_mean": -0.7101672636408384, "train/policy_logprob_min": -7.495541760710632, "train/policy_logprob_std": 1.2002057323650437, "train/policy_randomness_mag": 0.9499843396297117, "train/policy_randomness_max": 0.9499843396297117, "train/policy_randomness_mean": 0.2456854286850715, "train/policy_randomness_min": 0.02774425677093519, "train/policy_randomness_std": 0.2406582275823671, "train/post_ent_mag": 64.62917060592548, "train/post_ent_max": 64.62917060592548, "train/post_ent_mean": 40.13657828090953, "train/post_ent_min": 11.360807778883954, "train/post_ent_std": 5.701839288075765, "train/prior_ent_mag": 85.27702305592648, "train/prior_ent_max": 85.27702305592648, "train/prior_ent_mean": 43.05845418917079, "train/prior_ent_min": 13.57813937647813, "train/prior_ent_std": 7.842976534447702, "train/rep_loss_mean": 2.8922441670683776, "train/rep_loss_std": 6.1442958254392455, "train/reward_avg": 1.4391342474489797, "train/reward_loss_mean": 0.06589688864999077, "train/reward_loss_std": 0.22611325350748437, "train/reward_max_data": 296.1224489795918, "train/reward_max_pred": 264.24175123616953, "train/reward_neg_acc": 0.984765099830368, "train/reward_neg_loss": 0.0048102443419289174, "train/reward_pos_acc": 0.996228196993977, "train/reward_pos_loss": 0.6027117436434947, "train/reward_pred": 1.3440437110102907, "train/reward_rate": 0.10236633715986394, "train_stats/mean_log_entropy": 0.6338589588801066, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.083451883867383e-05, "report/cont_loss_std": 0.0006963358609937131, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.015215713530778885, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1185115909029264e-06, "report/cont_pred": 0.9980752468109131, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.9104933738708496, "report/dyn_loss_std": 6.63697624206543, "report/image_loss_mean": 0.8843896389007568, "report/image_loss_std": 0.8072523474693298, "report/model_loss_mean": 2.6911606788635254, "report/model_loss_std": 4.5183820724487305, "report/post_ent_mag": 62.12235641479492, "report/post_ent_max": 62.12235641479492, "report/post_ent_mean": 38.46465301513672, "report/post_ent_min": 9.677496910095215, "report/post_ent_std": 6.085579872131348, "report/prior_ent_mag": 85.44685363769531, "report/prior_ent_max": 85.44685363769531, "report/prior_ent_mean": 41.67298889160156, "report/prior_ent_min": 9.949363708496094, "report/prior_ent_std": 8.423983573913574, "report/rep_loss_mean": 2.9104933738708496, "report/rep_loss_std": 6.63697624206543, "report/reward_avg": 1.9140625, "report/reward_loss_mean": 0.060444049537181854, "report/reward_loss_std": 0.21324129402637482, "report/reward_max_data": 500.0, "report/reward_max_pred": 498.1419982910156, "report/reward_neg_acc": 0.982758641242981, "report/reward_neg_loss": 0.0026203393936157227, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6194066405296326, "report/reward_pred": 1.8561937808990479, "report/reward_rate": 0.09375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.00932073500007391, "eval/cont_loss_std": 0.15756119787693024, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.1071743965148926, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.0010938569903373718, "eval/cont_pred": 0.998245358467102, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.552420616149902, "eval/dyn_loss_std": 9.858175277709961, "eval/image_loss_mean": 1.4304665327072144, "eval/image_loss_std": 2.0099611282348633, "eval/model_loss_mean": 5.593683242797852, "eval/model_loss_std": 7.487226486206055, "eval/post_ent_mag": 66.42255401611328, "eval/post_ent_max": 66.42255401611328, "eval/post_ent_mean": 40.08976364135742, "eval/post_ent_min": 8.313209533691406, "eval/post_ent_std": 5.989234924316406, "eval/prior_ent_mag": 85.44685363769531, "eval/prior_ent_max": 85.44685363769531, "eval/prior_ent_mean": 44.296932220458984, "eval/prior_ent_min": 10.298454284667969, "eval/prior_ent_std": 8.254927635192871, "eval/rep_loss_mean": 6.552420616149902, "eval/rep_loss_std": 9.858175277709961, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.22244369983673096, "eval/reward_loss_std": 1.3541243076324463, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 495.4407958984375, "eval/reward_neg_acc": 0.9669966697692871, "eval/reward_neg_loss": 0.025687260553240776, "eval/reward_pos_acc": 0.8869564533233643, "eval/reward_pos_loss": 1.7776751518249512, "eval/reward_pred": 1.458669662475586, "eval/reward_rate": 0.1123046875, "replay/size": 337630.0, "replay/inserts": 1414.0, "replay/samples": 23616.0, "replay/insert_wait_avg": 6.034654134402349e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4347011642404364e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.175569534301758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.04024267196655, "timer/replay._sample_count": 23616.0, "timer/replay._sample_total": 357.0731656551361, "timer/replay._sample_frac": 1.2353752624695258, "timer/replay._sample_avg": 0.01511996805789025, "timer/replay._sample_min": 0.00045943260192871094, "timer/replay._sample_max": 0.05849266052246094, "timer/env.step_count": 1476.0, "timer/env.step_total": 6.739894151687622, "timer/env.step_frac": 0.023318186040055214, "timer/env.step_avg": 0.004566323951007874, "timer/env.step_min": 0.002471446990966797, "timer/env.step_max": 0.027735471725463867, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 104.60271286964417, "timer/agent.policy_frac": 0.3618967099621432, "timer/agent.policy_avg": 0.07086904665965052, "timer/agent.policy_min": 0.0027942657470703125, "timer/agent.policy_max": 0.08408689498901367, "timer/dataset_train_count": 1476.0, "timer/dataset_train_total": 0.148484468460083, "timer/dataset_train_frac": 0.0005137155542337366, "timer/dataset_train_avg": 0.00010059923337403997, "timer/dataset_train_min": 5.6743621826171875e-05, "timer/dataset_train_max": 0.00023365020751953125, "timer/agent.train_count": 1476.0, "timer/agent.train_total": 176.24397468566895, "timer/agent.train_frac": 0.6097558355764642, "timer/agent.train_avg": 0.11940648691440986, "timer/agent.train_min": 0.10545015335083008, "timer/agent.train_max": 0.20592546463012695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26792073249816895, "timer/agent.report_frac": 0.0009269322846584853, "timer/agent.report_avg": 0.13396036624908447, "timer/agent.report_min": 0.09982824325561523, "timer/agent.report_max": 0.1680924892425537, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.748603820800781e-05, "timer/dataset_eval_frac": 2.6808044960004814e-07, "timer/dataset_eval_avg": 7.748603820800781e-05, "timer/dataset_eval_min": 7.748603820800781e-05, "timer/dataset_eval_max": 7.748603820800781e-05, "fps": 20.425010326939525}
{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.9244384765625, "train/action_min": 0.0, "train/action_std": 4.697518348693848, "train/actor_opt_grad_norm": 0.016320565715432167, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0011316790478304029, "train/adv_mag": 0.7286381125450134, "train/adv_max": 0.6964573860168457, "train/adv_mean": 0.004094002768397331, "train/adv_min": -0.7286381125450134, "train/adv_std": 0.04551151394844055, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 1.8620850141815026e-06, "train/cont_loss_std": 4.387021544971503e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002239158930024132, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.645023644414323e-06, "train/cont_pred": 0.9990220069885254, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 4.479942321777344, "train/dyn_loss_std": 11.161032676696777, "train/extr_critic_critic_opt_grad_norm": 1.9849591255187988, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.613417625427246, "train/extr_critic_mag": 471.7684020996094, "train/extr_critic_max": 471.7684020996094, "train/extr_critic_mean": 213.68182373046875, "train/extr_critic_min": 0.0015625953674316406, "train/extr_critic_std": 155.7254638671875, "train/extr_return_normed_mag": 1.3580801486968994, "train/extr_return_normed_max": 1.3580801486968994, "train/extr_return_normed_mean": 0.48323169350624084, "train/extr_return_normed_min": -0.013372155837714672, "train/extr_return_normed_std": 0.3624884784221649, "train/extr_return_rate": 0.9645833969116211, "train/extr_return_raw_mag": 595.0224609375, "train/extr_return_raw_max": 595.0224609375, "train/extr_return_raw_mean": 215.4580535888672, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 157.27035522460938, "train/extr_reward_mag": 500.21697998046875, "train/extr_reward_max": 500.21697998046875, "train/extr_reward_mean": 0.8271592259407043, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.112972736358643, "train/image_loss_mean": 1.0253962278366089, "train/image_loss_std": 1.2398933172225952, "train/model_loss_mean": 3.7968883514404297, "train/model_loss_std": 7.798177242279053, "train/model_opt_grad_norm": 16.713119506835938, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 3.7968883514404297, "train/policy_entropy_mag": 2.789952278137207, "train/policy_entropy_max": 2.789952278137207, "train/policy_entropy_mean": 0.8599753379821777, "train/policy_entropy_min": 0.08019199222326279, "train/policy_entropy_std": 0.693661093711853, "train/policy_logprob_mag": 7.495527267456055, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.8486829400062561, "train/policy_logprob_min": -7.495527267456055, "train/policy_logprob_std": 1.2181719541549683, "train/policy_randomness_mag": 0.9652572870254517, "train/policy_randomness_max": 0.9652572870254517, "train/policy_randomness_mean": 0.2975310683250427, "train/policy_randomness_min": 0.02774452604353428, "train/policy_randomness_std": 0.23999027907848358, "train/post_ent_mag": 67.82240295410156, "train/post_ent_max": 67.82240295410156, "train/post_ent_mean": 40.437129974365234, "train/post_ent_min": 11.543006896972656, "train/post_ent_std": 5.289157390594482, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.41434097290039, "train/prior_ent_min": 16.537145614624023, "train/prior_ent_std": 7.535503387451172, "train/rep_loss_mean": 4.479942321777344, "train/rep_loss_std": 11.161032676696777, "train/reward_avg": 0.87890625, "train/reward_loss_mean": 0.08352505415678024, "train/reward_loss_std": 0.5106813907623291, "train/reward_max_data": 20.0, "train/reward_max_pred": 19.99587631225586, "train/reward_neg_acc": 0.9882352948188782, "train/reward_neg_loss": 0.0030449938494712114, "train/reward_pos_acc": 0.9438202381134033, "train/reward_pos_loss": 0.9290178418159485, "train/reward_pred": 0.8002982139587402, "train/reward_rate": 0.0869140625, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.184859214248718e-07, "report/cont_loss_std": 1.0119909347849898e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.901505836751312e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.223993409548711e-07, "report/cont_pred": 0.999022901058197, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.004364967346191, "report/dyn_loss_std": 10.690486907958984, "report/image_loss_mean": 0.9520645141601562, "report/image_loss_std": 1.1628392934799194, "report/model_loss_mean": 3.413623332977295, "report/model_loss_std": 7.3210344314575195, "report/post_ent_mag": 67.86429595947266, "report/post_ent_max": 67.86429595947266, "report/post_ent_mean": 40.5509147644043, "report/post_ent_min": 11.52761173248291, "report/post_ent_std": 5.289287090301514, "report/prior_ent_mag": 85.20230102539062, "report/prior_ent_max": 85.20230102539062, "report/prior_ent_mean": 43.393089294433594, "report/prior_ent_min": 16.44979476928711, "report/prior_ent_std": 7.410187244415283, "report/rep_loss_mean": 4.004364967346191, "report/rep_loss_std": 10.690486907958984, "report/reward_avg": 0.87890625, "report/reward_loss_mean": 0.05893905460834503, "report/reward_loss_std": 0.2578498423099518, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.981853485107422, "report/reward_neg_acc": 0.9850267767906189, "report/reward_neg_loss": 0.00271642510779202, "report/reward_pos_acc": 0.9887640476226807, "report/reward_pos_loss": 0.6495925188064575, "report/reward_pred": 0.8402549624443054, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0010671888012439013, "eval/cont_loss_std": 0.023478088900446892, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.7258426547050476, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0003587084647733718, "eval/cont_pred": 0.9991871118545532, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.131207466125488, "eval/dyn_loss_std": 10.658343315124512, "eval/image_loss_mean": 3.333681106567383, "eval/image_loss_std": 3.2352774143218994, "eval/model_loss_mean": 10.274496078491211, "eval/model_loss_std": 9.359673500061035, "eval/post_ent_mag": 62.27135467529297, "eval/post_ent_max": 62.27135467529297, "eval/post_ent_mean": 39.950164794921875, "eval/post_ent_min": 12.697128295898438, "eval/post_ent_std": 5.268039226531982, "eval/prior_ent_mag": 85.20230102539062, "eval/prior_ent_max": 85.20230102539062, "eval/prior_ent_mean": 45.26390838623047, "eval/prior_ent_min": 14.259897232055664, "eval/prior_ent_std": 7.268096446990967, "eval/rep_loss_mean": 11.131207466125488, "eval/rep_loss_std": 10.658343315124512, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.26102322340011597, "eval/reward_loss_std": 1.6095061302185059, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.009495735168457, "eval/reward_neg_acc": 0.9581993222236633, "eval/reward_neg_loss": 0.022901853546500206, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.702421188354492, "eval/reward_pred": 0.6743959188461304, "eval/reward_rate": 0.0888671875, "replay/size": 338138.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.430511474609375e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 94.14106011390686, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 16.231906414031982, "timer/replay._sample_frac": 0.1724211135331601, "timer/replay._sample_avg": 0.14492773583957128, "timer/replay._sample_min": 0.020041704177856445, "timer/replay._sample_max": 0.7407333850860596, "timer/env.step_count": 1.0, "timer/env.step_total": 0.02808356285095215, "timer/env.step_frac": 0.0002983136456820454, "timer/env.step_avg": 0.02808356285095215, "timer/env.step_min": 0.02808356285095215, "timer/env.step_max": 0.02808356285095215, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 8.312555074691772, "timer/agent.policy_frac": 0.08829893209863919, "timer/agent.policy_avg": 8.312555074691772, "timer/agent.policy_min": 8.312555074691772, "timer/agent.policy_max": 8.312555074691772, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 4.506111145019531e-05, "timer/dataset_train_frac": 4.786552371056072e-07, "timer/dataset_train_avg": 4.506111145019531e-05, "timer/dataset_train_min": 4.506111145019531e-05, "timer/dataset_train_max": 4.506111145019531e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 59.17894196510315, "timer/agent.train_frac": 0.6286198805653881, "timer/agent.train_avg": 59.17894196510315, "timer/agent.train_min": 59.17894196510315, "timer/agent.train_max": 59.17894196510315, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.37165904045105, "timer/agent.report_frac": 0.12079382818391682, "timer/agent.report_avg": 5.685829520225525, "timer/agent.report_min": 0.09814834594726562, "timer/agent.report_max": 11.273510694503784, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010585784912109375, "timer/dataset_eval_frac": 1.1244599220893631e-06, "timer/dataset_eval_avg": 0.00010585784912109375, "timer/dataset_eval_min": 0.00010585784912109375, "timer/dataset_eval_max": 0.00010585784912109375}
{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.9085693359375, "train/action_min": 0.0, "train/action_std": 4.710562229156494, "train/actor_opt_grad_norm": 0.016402725130319595, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0012299430090934038, "train/adv_mag": 0.8396719694137573, "train/adv_max": 0.8396719694137573, "train/adv_mean": 0.004164631478488445, "train/adv_min": -0.7583818435668945, "train/adv_std": 0.04643939062952995, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 8.311740771205223e-07, "train/cont_loss_std": 1.3982193195261061e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00022391631500795484, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.131045324764273e-07, "train/cont_pred": 0.9990230798721313, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 4.543844223022461, "train/dyn_loss_std": 11.188632011413574, "train/extr_critic_critic_opt_grad_norm": 2.125328540802002, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.6166009902954102, "train/extr_critic_mag": 471.3492431640625, "train/extr_critic_max": 471.3492431640625, "train/extr_critic_mean": 213.39309692382812, "train/extr_critic_min": 0.0012763738632202148, "train/extr_critic_std": 155.77708435058594, "train/extr_return_normed_mag": 1.540175199508667, "train/extr_return_normed_max": 1.540175199508667, "train/extr_return_normed_mean": 0.4826410114765167, "train/extr_return_normed_min": -0.013369926251471043, "train/extr_return_normed_std": 0.36187657713890076, "train/extr_return_rate": 0.9573568105697632, "train/extr_return_raw_mag": 674.023193359375, "train/extr_return_raw_max": 674.023193359375, "train/extr_return_raw_mean": 215.1999969482422, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 157.00424194335938, "train/extr_reward_mag": 443.9737548828125, "train/extr_reward_max": 443.9737548828125, "train/extr_reward_mean": 0.8392443060874939, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.625566005706787, "train/image_loss_mean": 1.0370140075683594, "train/image_loss_std": 1.2330151796340942, "train/model_loss_mean": 3.849191665649414, "train/model_loss_std": 7.814447402954102, "train/model_opt_grad_norm": 16.6935977935791, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 3.849191665649414, "train/policy_entropy_mag": 2.7580292224884033, "train/policy_entropy_max": 2.7580292224884033, "train/policy_entropy_mean": 0.8573606014251709, "train/policy_entropy_min": 0.08019197732210159, "train/policy_entropy_std": 0.6872104406356812, "train/policy_logprob_mag": 7.495527267456055, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.8475095629692078, "train/policy_logprob_min": -7.495527267456055, "train/policy_logprob_std": 1.211454153060913, "train/policy_randomness_mag": 0.9542126655578613, "train/policy_randomness_max": 0.9542126655578613, "train/policy_randomness_mean": 0.29662641882896423, "train/policy_randomness_min": 0.02774452045559883, "train/policy_randomness_std": 0.23775850236415863, "train/post_ent_mag": 67.82240295410156, "train/post_ent_max": 67.82240295410156, "train/post_ent_mean": 40.34760284423828, "train/post_ent_min": 11.260551452636719, "train/post_ent_std": 5.270246982574463, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.44416046142578, "train/prior_ent_min": 16.53714942932129, "train/prior_ent_std": 7.502679824829102, "train/rep_loss_mean": 4.543844223022461, "train/rep_loss_std": 11.188632011413574, "train/reward_avg": 0.87890625, "train/reward_loss_mean": 0.08587008714675903, "train/reward_loss_std": 0.5255563259124756, "train/reward_max_data": 20.0, "train/reward_max_pred": 19.99587059020996, "train/reward_neg_acc": 0.9893048405647278, "train/reward_neg_loss": 0.002746337791904807, "train/reward_pos_acc": 0.932584285736084, "train/reward_pos_loss": 0.9591364860534668, "train/reward_pred": 0.7931766510009766, "train/reward_rate": 0.0869140625, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.56215866254206e-07, "report/cont_loss_std": 8.360926585737616e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 6.313761696219444e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.950415473103931e-07, "report/cont_pred": 0.9990230202674866, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.956798553466797, "report/dyn_loss_std": 10.418914794921875, "report/image_loss_mean": 0.954562246799469, "report/image_loss_std": 1.1539387702941895, "report/model_loss_mean": 3.384657382965088, "report/model_loss_std": 7.152098655700684, "report/post_ent_mag": 67.84964752197266, "report/post_ent_max": 67.84964752197266, "report/post_ent_mean": 40.50956344604492, "report/post_ent_min": 11.123908996582031, "report/post_ent_std": 5.320223331451416, "report/prior_ent_mag": 85.20147705078125, "report/prior_ent_max": 85.20147705078125, "report/prior_ent_mean": 43.39961242675781, "report/prior_ent_min": 16.43112564086914, "report/prior_ent_std": 7.417322635650635, "report/rep_loss_mean": 3.956798553466797, "report/rep_loss_std": 10.418914794921875, "report/reward_avg": 0.87890625, "report/reward_loss_mean": 0.056015342473983765, "report/reward_loss_std": 0.20374830067157745, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.980449676513672, "report/reward_neg_acc": 0.9871658086776733, "report/reward_neg_loss": 0.002459730952978134, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6186501383781433, "report/reward_pred": 0.8289207220077515, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002038139384239912, "eval/cont_loss_std": 0.037579987198114395, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.013492069207131863, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0020269430242478848, "eval/cont_pred": 0.9975665211677551, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.146415710449219, "eval/dyn_loss_std": 10.592673301696777, "eval/image_loss_mean": 3.2950997352600098, "eval/image_loss_std": 3.198768138885498, "eval/model_loss_mean": 10.241355895996094, "eval/model_loss_std": 9.30871295928955, "eval/post_ent_mag": 62.23483657836914, "eval/post_ent_max": 62.23483657836914, "eval/post_ent_mean": 39.9890251159668, "eval/post_ent_min": 12.850265502929688, "eval/post_ent_std": 5.2508673667907715, "eval/prior_ent_mag": 85.20147705078125, "eval/prior_ent_max": 85.20147705078125, "eval/prior_ent_mean": 45.340179443359375, "eval/prior_ent_min": 14.655635833740234, "eval/prior_ent_std": 7.260190486907959, "eval/rep_loss_mean": 11.146415710449219, "eval/rep_loss_std": 10.592673301696777, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2563682794570923, "eval/reward_loss_std": 1.5682257413864136, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.009488105773926, "eval/reward_neg_acc": 0.9581993222236633, "eval/reward_neg_loss": 0.020396141335368156, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.6757311820983887, "eval/reward_pred": 0.6467517614364624, "eval/reward_rate": 0.0888671875, "replay/size": 338138.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.5837805611746653e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9116061074393135e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 94.63873076438904, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 18.89224648475647, "timer/replay._sample_frac": 0.19962489281254503, "timer/replay._sample_avg": 0.16868077218532562, "timer/replay._sample_min": 0.021038532257080078, "timer/replay._sample_max": 0.7373075485229492, "timer/env.step_count": 1.0, "timer/env.step_total": 0.026013851165771484, "timer/env.step_frac": 0.0002748753174906278, "timer/env.step_avg": 0.026013851165771484, "timer/env.step_min": 0.026013851165771484, "timer/env.step_max": 0.026013851165771484, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 8.605638027191162, "timer/agent.policy_frac": 0.09093146069990743, "timer/agent.policy_avg": 8.605638027191162, "timer/agent.policy_min": 8.605638027191162, "timer/agent.policy_max": 8.605638027191162, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 4.744529724121094e-05, "timer/dataset_train_frac": 5.013306587905319e-07, "timer/dataset_train_avg": 4.744529724121094e-05, "timer/dataset_train_min": 4.744529724121094e-05, "timer/dataset_train_max": 4.744529724121094e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 57.91796588897705, "timer/agent.train_frac": 0.6119900956107349, "timer/agent.train_avg": 57.91796588897705, "timer/agent.train_min": 57.91796588897705, "timer/agent.train_max": 57.91796588897705, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.092010498046875, "timer/agent.report_frac": 0.11720371150857205, "timer/agent.report_avg": 5.5460052490234375, "timer/agent.report_min": 0.10241413116455078, "timer/agent.report_max": 10.989596366882324, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012803077697753906, "timer/dataset_eval_frac": 1.352837003871938e-06, "timer/dataset_eval_avg": 0.00012803077697753906, "timer/dataset_eval_min": 0.00012803077697753906, "timer/dataset_eval_max": 0.00012803077697753906}
{"step": 595548, "episode/length": 386.0, "episode/score": 1010.0, "episode/reward_rate": 0.1343669250645995}
{"step": 598800, "episode/length": 812.0, "episode/score": 1220.0, "episode/reward_rate": 0.0897908979089791}
{"step": 599904, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.57647248352466, "train/action_min": 0.0, "train/action_std": 4.296214327520254, "train/actor_opt_grad_norm": 0.009325921560834054, "train/actor_opt_grad_steps": 148140.0, "train/actor_opt_loss": -8.116826558737366e-05, "train/adv_mag": 0.9062635560019486, "train/adv_max": 0.8704182469114965, "train/adv_mean": 0.002308972207149772, "train/adv_min": -0.6338192482992094, "train/adv_std": 0.04438248604890846, "train/cont_avg": 0.9979737988945578, "train/cont_loss_mean": 0.00046685156952824483, "train/cont_loss_std": 0.011734312681573884, "train/cont_neg_acc": 0.9455729178152978, "train/cont_neg_loss": 0.13878373053205983, "train/cont_pos_acc": 0.9999533218591392, "train/cont_pos_loss": 0.00016701825471089436, "train/cont_pred": 0.9980010840357566, "train/cont_rate": 0.9979737988945578, "train/dyn_loss_mean": 2.9316706592533865, "train/dyn_loss_std": 6.246062132777, "train/extr_critic_critic_opt_grad_norm": 1.518946846731666, "train/extr_critic_critic_opt_grad_steps": 148140.0, "train/extr_critic_critic_opt_loss": 1.4068831310791223, "train/extr_critic_mag": 478.09886595018867, "train/extr_critic_max": 478.09886595018867, "train/extr_critic_mean": 241.51473490397134, "train/extr_critic_min": 0.6683804818562099, "train/extr_critic_std": 157.86678625612842, "train/extr_return_normed_mag": 1.459674132519028, "train/extr_return_normed_max": 1.459674132519028, "train/extr_return_normed_mean": 0.5416464789384077, "train/extr_return_normed_min": -0.014416949799740496, "train/extr_return_normed_std": 0.36630651760263505, "train/extr_return_rate": 0.9383734172704269, "train/extr_return_raw_mag": 641.5367643395249, "train/extr_return_raw_max": 641.5367643395249, "train/extr_return_raw_mean": 242.51779548489318, "train/extr_return_raw_min": 0.767409597622503, "train/extr_return_raw_std": 159.25349646847263, "train/extr_reward_mag": 373.82363246087317, "train/extr_reward_max": 373.82363246087317, "train/extr_reward_mean": 1.314982835127383, "train/extr_reward_min": 0.0, "train/extr_reward_std": 11.136161114893802, "train/image_loss_mean": 0.8752488343894076, "train/image_loss_std": 0.8194588982329076, "train/model_loss_mean": 2.7023086580289464, "train/model_loss_std": 4.30002084232512, "train/model_opt_grad_norm": 9.617367692545157, "train/model_opt_grad_steps": 148140.0, "train/model_opt_loss": 2.7023086580289464, "train/policy_entropy_mag": 2.7477813221159435, "train/policy_entropy_max": 2.7477813221159435, "train/policy_entropy_mean": 0.7167929435262874, "train/policy_entropy_min": 0.08019125892394253, "train/policy_entropy_std": 0.6988263308596449, "train/policy_logprob_mag": 7.4955418418053865, "train/policy_logprob_max": -0.009489543545915156, "train/policy_logprob_mean": -0.7163406006332969, "train/policy_logprob_min": -7.4955418418053865, "train/policy_logprob_std": 1.2021106700507962, "train/policy_randomness_mag": 0.9506671132684565, "train/policy_randomness_max": 0.9506671132684565, "train/policy_randomness_mean": 0.24799334668383308, "train/policy_randomness_min": 0.027744272001543824, "train/policy_randomness_std": 0.24177732333845023, "train/post_ent_mag": 64.92049846519419, "train/post_ent_max": 64.92049846519419, "train/post_ent_mean": 40.15661911737351, "train/post_ent_min": 10.899073801884034, "train/post_ent_std": 5.75366650471071, "train/prior_ent_mag": 85.2315007423868, "train/prior_ent_max": 85.2315007423868, "train/prior_ent_mean": 43.07812762098248, "train/prior_ent_min": 13.406817896836468, "train/prior_ent_std": 7.880405571995949, "train/rep_loss_mean": 2.9316706592533865, "train/rep_loss_std": 6.246062132777, "train/reward_avg": 1.4928784013605443, "train/reward_loss_mean": 0.06759058565002721, "train/reward_loss_std": 0.2363613933122077, "train/reward_max_data": 325.9183673469388, "train/reward_max_pred": 295.2015065627844, "train/reward_neg_acc": 0.9844595137096587, "train/reward_neg_loss": 0.00505149755155712, "train/reward_pos_acc": 0.9960438682108509, "train/reward_pos_loss": 0.6138526566174566, "train/reward_pred": 1.39623486671318, "train/reward_rate": 0.10283136692176871, "train_stats/mean_log_entropy": 0.7494380176067352, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0007979315123520792, "report/cont_loss_std": 0.014822282828390598, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.08172464370727539, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0006395622622221708, "report/cont_pred": 0.997643768787384, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.1140222549438477, "report/dyn_loss_std": 5.841949939727783, "report/image_loss_mean": 1.05511474609375, "report/image_loss_std": 0.7889345288276672, "report/model_loss_mean": 2.9862122535705566, "report/model_loss_std": 3.9767563343048096, "report/post_ent_mag": 63.13870620727539, "report/post_ent_max": 63.13870620727539, "report/post_ent_mean": 40.80775451660156, "report/post_ent_min": 24.263023376464844, "report/post_ent_std": 5.204126358032227, "report/prior_ent_mag": 85.4893569946289, "report/prior_ent_max": 85.4893569946289, "report/prior_ent_mean": 43.99688720703125, "report/prior_ent_min": 26.264907836914062, "report/prior_ent_std": 7.29604434967041, "report/rep_loss_mean": 3.1140222549438477, "report/rep_loss_std": 5.841949939727783, "report/reward_avg": 1.875, "report/reward_loss_mean": 0.061886437237262726, "report/reward_loss_std": 0.23321276903152466, "report/reward_max_data": 500.0, "report/reward_max_pred": 487.6586608886719, "report/reward_neg_acc": 0.9752688407897949, "report/reward_neg_loss": 0.005501066334545612, "report/reward_pos_acc": 0.9893616437911987, "report/reward_pos_loss": 0.619741678237915, "report/reward_pred": 1.8099265098571777, "report/reward_rate": 0.091796875, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.006266305688768625, "eval/cont_loss_std": 0.1121489554643631, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.2720904350280762, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.001302289660088718, "eval/cont_pred": 0.9969396591186523, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.721066951751709, "eval/dyn_loss_std": 9.726577758789062, "eval/image_loss_mean": 1.414163589477539, "eval/image_loss_std": 1.930135726928711, "eval/model_loss_mean": 5.699645519256592, "eval/model_loss_std": 7.328468322753906, "eval/post_ent_mag": 64.86320495605469, "eval/post_ent_max": 64.86320495605469, "eval/post_ent_mean": 40.04857635498047, "eval/post_ent_min": 7.332216739654541, "eval/post_ent_std": 5.891317844390869, "eval/prior_ent_mag": 85.4893569946289, "eval/prior_ent_max": 85.4893569946289, "eval/prior_ent_mean": 44.088035583496094, "eval/prior_ent_min": 12.858902931213379, "eval/prior_ent_std": 8.16807746887207, "eval/rep_loss_mean": 6.721066951751709, "eval/rep_loss_std": 9.726577758789062, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.24657519161701202, "eval/reward_loss_std": 1.4345463514328003, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 496.07086181640625, "eval/reward_neg_acc": 0.9669966697692871, "eval/reward_neg_loss": 0.022840620949864388, "eval/reward_pos_acc": 0.8434782028198242, "eval/reward_pos_loss": 2.0150511264801025, "eval/reward_pred": 1.4355829954147339, "eval/reward_rate": 0.1123046875, "replay/size": 339551.0, "replay/inserts": 1413.0, "replay/samples": 23600.0, "replay/insert_wait_avg": 5.306627256011423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3533891257593187e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0712614059448242e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.1931965351105, "timer/replay._sample_count": 23600.0, "timer/replay._sample_total": 345.1035740375519, "timer/replay._sample_frac": 1.1933322712024914, "timer/replay._sample_avg": 0.014623032798201352, "timer/replay._sample_min": 0.003380298614501953, "timer/replay._sample_max": 0.04916119575500488, "timer/env.step_count": 1475.0, "timer/env.step_total": 6.447173118591309, "timer/env.step_frac": 0.022293654193239528, "timer/env.step_avg": 0.004370964826163599, "timer/env.step_min": 0.002339601516723633, "timer/env.step_max": 0.02842092514038086, "timer/agent.policy_count": 1475.0, "timer/agent.policy_total": 106.02909564971924, "timer/agent.policy_frac": 0.36663758663785306, "timer/agent.policy_avg": 0.07188413264387745, "timer/agent.policy_min": 0.003225088119506836, "timer/agent.policy_max": 0.09471654891967773, "timer/dataset_train_count": 1475.0, "timer/dataset_train_total": 0.14169073104858398, "timer/dataset_train_frac": 0.0004899518133421286, "timer/dataset_train_avg": 9.606151257531118e-05, "timer/dataset_train_min": 5.125999450683594e-05, "timer/dataset_train_max": 0.0006639957427978516, "timer/agent.train_count": 1475.0, "timer/agent.train_total": 175.28136897087097, "timer/agent.train_frac": 0.6061047461384187, "timer/agent.train_avg": 0.11883482642092948, "timer/agent.train_min": 0.10514974594116211, "timer/agent.train_max": 0.2060253620147705, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.27036070823669434, "timer/agent.report_frac": 0.0009348792138817494, "timer/agent.report_avg": 0.13518035411834717, "timer/agent.report_min": 0.10406780242919922, "timer/agent.report_max": 0.16629290580749512, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.747245788574219e-05, "timer/dataset_eval_frac": 2.3331274281049855e-07, "timer/dataset_eval_avg": 6.747245788574219e-05, "timer/dataset_eval_min": 6.747245788574219e-05, "timer/dataset_eval_max": 6.747245788574219e-05, "fps": 20.400532739410995}
{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.2901611328125, "train/action_min": 0.0, "train/action_std": 4.289059162139893, "train/actor_opt_grad_norm": 0.014407658949494362, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0013097781920805573, "train/adv_mag": 2.080950975418091, "train/adv_max": 2.080950975418091, "train/adv_mean": 0.0069726863875985146, "train/adv_min": -0.7859571576118469, "train/adv_std": 0.08586059510707855, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 3.1767215205036337e-06, "train/cont_loss_std": 9.867282642517239e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003158335108309984, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 9.250000942984116e-08, "train/cont_pred": 0.9990264177322388, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 2.5467095375061035, "train/dyn_loss_std": 5.250852584838867, "train/extr_critic_critic_opt_grad_norm": 1.062768816947937, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.248591661453247, "train/extr_critic_mag": 491.0856628417969, "train/extr_critic_max": 491.0856628417969, "train/extr_critic_mean": 278.556396484375, "train/extr_critic_min": 0.00014007091522216797, "train/extr_critic_std": 139.05001831054688, "train/extr_return_normed_mag": 2.643968105316162, "train/extr_return_normed_max": 2.643968105316162, "train/extr_return_normed_mean": 0.6348918080329895, "train/extr_return_normed_min": -0.014130305498838425, "train/extr_return_normed_std": 0.33380377292633057, "train/extr_return_rate": 0.9760417342185974, "train/extr_return_raw_mag": 1153.2294921875, "train/extr_return_raw_max": 1153.2294921875, "train/extr_return_raw_mean": 281.5815124511719, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 144.82244873046875, "train/extr_reward_mag": 872.6878662109375, "train/extr_reward_max": 872.6878662109375, "train/extr_reward_mean": 1.9564090967178345, "train/extr_reward_min": 0.0, "train/extr_reward_std": 21.575271606445312, "train/image_loss_mean": 0.6957722902297974, "train/image_loss_std": 0.5828337669372559, "train/model_loss_mean": 2.2976388931274414, "train/model_loss_std": 3.541167736053467, "train/model_opt_grad_norm": 6.788210868835449, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.2976388931274414, "train/policy_entropy_mag": 2.7610976696014404, "train/policy_entropy_max": 2.7610976696014404, "train/policy_entropy_mean": 0.6234089732170105, "train/policy_entropy_min": 0.08019119501113892, "train/policy_entropy_std": 0.6184643507003784, "train/policy_logprob_mag": 7.495542049407959, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.6163680553436279, "train/policy_logprob_min": -7.495542049407959, "train/policy_logprob_std": 1.1405043601989746, "train/policy_randomness_mag": 0.9552742838859558, "train/policy_randomness_max": 0.9552742838859558, "train/policy_randomness_mean": 0.215684711933136, "train/policy_randomness_min": 0.027744250372052193, "train/policy_randomness_std": 0.2139739841222763, "train/post_ent_mag": 66.66848754882812, "train/post_ent_max": 66.66848754882812, "train/post_ent_mean": 41.070091247558594, "train/post_ent_min": 9.712577819824219, "train/post_ent_std": 5.499189853668213, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.717140197753906, "train/prior_ent_min": 11.684405326843262, "train/prior_ent_std": 7.529991626739502, "train/rep_loss_mean": 2.5467095375061035, "train/rep_loss_std": 5.250852584838867, "train/reward_avg": 3.056640625, "train/reward_loss_mean": 0.07383778691291809, "train/reward_loss_std": 0.2474716305732727, "train/reward_max_data": 1000.0, "train/reward_max_pred": 904.6007080078125, "train/reward_neg_acc": 0.9889867305755615, "train/reward_neg_loss": 0.005689166020601988, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.6072769165039062, "train/reward_pred": 2.915665626525879, "train/reward_rate": 0.11328125, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.0255042980134021e-05, "report/cont_loss_std": 0.00027269512065686285, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.008512397296726704, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.9440537926129764e-06, "report/cont_pred": 0.9990297555923462, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.4936914443969727, "report/dyn_loss_std": 5.18566370010376, "report/image_loss_mean": 0.684738278388977, "report/image_loss_std": 0.5818017721176147, "report/model_loss_mean": 2.2511157989501953, "report/model_loss_std": 3.5144267082214355, "report/post_ent_mag": 66.67901611328125, "report/post_ent_max": 66.67901611328125, "report/post_ent_mean": 41.14529037475586, "report/post_ent_min": 9.870960235595703, "report/post_ent_std": 5.522439956665039, "report/prior_ent_mag": 85.18087005615234, "report/prior_ent_max": 85.18087005615234, "report/prior_ent_mean": 43.83300018310547, "report/prior_ent_min": 13.671812057495117, "report/prior_ent_std": 7.532557964324951, "report/rep_loss_mean": 2.4936914443969727, "report/rep_loss_std": 5.18566370010376, "report/reward_avg": 3.056640625, "report/reward_loss_mean": 0.07015234977006912, "report/reward_loss_std": 0.22348935902118683, "report/reward_max_data": 1000.0, "report/reward_max_pred": 916.15380859375, "report/reward_neg_acc": 0.9867841005325317, "report/reward_neg_loss": 0.00284946640022099, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5969714522361755, "report/reward_pred": 2.9424960613250732, "report/reward_rate": 0.11328125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0017100769327953458, "eval/cont_loss_std": 0.037082891911268234, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5115643739700317, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0012116857105866075, "eval/cont_pred": 0.9986099004745483, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.428930282592773, "eval/dyn_loss_std": 10.98974609375, "eval/image_loss_mean": 3.377382278442383, "eval/image_loss_std": 3.24904465675354, "eval/model_loss_mean": 10.488557815551758, "eval/model_loss_std": 9.547894477844238, "eval/post_ent_mag": 62.491798400878906, "eval/post_ent_max": 62.491798400878906, "eval/post_ent_mean": 39.95321273803711, "eval/post_ent_min": 13.041940689086914, "eval/post_ent_std": 5.284353733062744, "eval/prior_ent_mag": 85.18087005615234, "eval/prior_ent_max": 85.18087005615234, "eval/prior_ent_mean": 45.267215728759766, "eval/prior_ent_min": 15.999159812927246, "eval/prior_ent_std": 7.300042152404785, "eval/rep_loss_mean": 11.428930282592773, "eval/rep_loss_std": 10.98974609375, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2521076202392578, "eval/reward_loss_std": 1.504040241241455, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.010307312011719, "eval/reward_neg_acc": 0.9603429436683655, "eval/reward_neg_loss": 0.024517329409718513, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.585533857345581, "eval/reward_pred": 0.6811578273773193, "eval/reward_rate": 0.0888671875, "replay/size": 340060.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.5710081372942244e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8094267163957869e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 91.31889510154724, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 16.88162088394165, "timer/replay._sample_frac": 0.18486448905420036, "timer/replay._sample_avg": 0.15072875789233617, "timer/replay._sample_min": 0.021919727325439453, "timer/replay._sample_max": 0.6156051158905029, "timer/env.step_count": 1.0, "timer/env.step_total": 0.028339862823486328, "timer/env.step_frac": 0.0003103395282211004, "timer/env.step_avg": 0.028339862823486328, "timer/env.step_min": 0.028339862823486328, "timer/env.step_max": 0.028339862823486328, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.01303505897522, "timer/agent.policy_frac": 0.10964910435940618, "timer/agent.policy_avg": 10.01303505897522, "timer/agent.policy_min": 10.01303505897522, "timer/agent.policy_max": 10.01303505897522, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 0.00036787986755371094, "timer/dataset_train_frac": 4.028518601157252e-06, "timer/dataset_train_avg": 0.00036787986755371094, "timer/dataset_train_min": 0.00036787986755371094, "timer/dataset_train_max": 0.00036787986755371094, "timer/agent.train_count": 1.0, "timer/agent.train_total": 54.81596660614014, "timer/agent.train_frac": 0.6002697091898057, "timer/agent.train_avg": 54.81596660614014, "timer/agent.train_min": 54.81596660614014, "timer/agent.train_max": 54.81596660614014, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.328552961349487, "timer/agent.report_frac": 0.12405486234532359, "timer/agent.report_avg": 5.664276480674744, "timer/agent.report_min": 0.10422062873840332, "timer/agent.report_max": 11.224332332611084, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001628398895263672, "timer/dataset_eval_frac": 1.7832003918278699e-06, "timer/dataset_eval_avg": 0.0001628398895263672, "timer/dataset_eval_min": 0.0001628398895263672, "timer/dataset_eval_max": 0.0001628398895263672}
{"step": 595540, "episode/length": 384.0, "episode/score": 1010.0, "episode/reward_rate": 0.13246753246753246}
{"step": 597240, "episode/length": 424.0, "episode/score": 1030.0, "episode/reward_rate": 0.12705882352941175}
{"step": 599148, "episode/length": 476.0, "episode/score": 1150.0, "episode/reward_rate": 0.13836477987421383}
{"step": 599888, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.505929959874575, "train/action_min": 0.0, "train/action_std": 4.309066981685405, "train/actor_opt_grad_norm": 0.009043202079756528, "train/actor_opt_grad_steps": 148140.0, "train/actor_opt_loss": 4.69565735069669e-06, "train/adv_mag": 0.8703936798637416, "train/adv_max": 0.8450953807352352, "train/adv_mean": 0.0022394525610073034, "train/adv_min": -0.5647800867857576, "train/adv_std": 0.04125098205570664, "train/cont_avg": 0.9980203018707483, "train/cont_loss_mean": 0.0004738948827033077, "train/cont_loss_std": 0.012367012383810069, "train/cont_neg_acc": 0.9396766179533147, "train/cont_neg_loss": 0.14834143706713715, "train/cont_pos_acc": 0.9999400093441918, "train/cont_pos_loss": 0.00018751173109468781, "train/cont_pred": 0.9980182274669206, "train/cont_rate": 0.9980203018707483, "train/dyn_loss_mean": 2.923486378728127, "train/dyn_loss_std": 6.192875469622969, "train/extr_critic_critic_opt_grad_norm": 1.5234711243181813, "train/extr_critic_critic_opt_grad_steps": 148140.0, "train/extr_critic_critic_opt_loss": 1.4105694034472616, "train/extr_critic_mag": 479.9635908684763, "train/extr_critic_max": 479.9635908684763, "train/extr_critic_mean": 238.7665125009965, "train/extr_critic_min": 0.18724277879105133, "train/extr_critic_std": 158.41417133564852, "train/extr_return_normed_mag": 1.442368363442064, "train/extr_return_normed_max": 1.442368363442064, "train/extr_return_normed_mean": 0.5328527989030696, "train/extr_return_normed_min": -0.016546538391080844, "train/extr_return_normed_std": 0.3660747666342729, "train/extr_return_rate": 0.9383167271711388, "train/extr_return_raw_mag": 636.4296731754225, "train/extr_return_raw_max": 636.4296731754225, "train/extr_return_raw_mean": 239.74352300734748, "train/extr_return_raw_min": 0.19723479682579637, "train/extr_return_raw_std": 159.62207648867653, "train/extr_reward_mag": 359.9990141797228, "train/extr_reward_max": 359.9990141797228, "train/extr_reward_mean": 1.24978624963436, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.177221692338282, "train/image_loss_mean": 0.8878355164106201, "train/image_loss_std": 0.8203588415976284, "train/model_loss_mean": 2.710295141959677, "train/model_loss_std": 4.2666316778481415, "train/model_opt_grad_norm": 9.103645516090653, "train/model_opt_grad_steps": 148140.0, "train/model_opt_loss": 2.710295141959677, "train/policy_entropy_mag": 2.7526135428422163, "train/policy_entropy_max": 2.7526135428422163, "train/policy_entropy_mean": 0.7202671525024232, "train/policy_entropy_min": 0.08019124072830693, "train/policy_entropy_std": 0.7047223639326031, "train/policy_logprob_mag": 7.495541598521123, "train/policy_logprob_max": -0.00948953551246601, "train/policy_logprob_mean": -0.7197901730229255, "train/policy_logprob_min": -7.495541598521123, "train/policy_logprob_std": 1.2057621349282817, "train/policy_randomness_mag": 0.9523389469198629, "train/policy_randomness_max": 0.9523389469198629, "train/policy_randomness_mean": 0.249195338613322, "train/policy_randomness_min": 0.02774426581806877, "train/policy_randomness_std": 0.2438172100960803, "train/post_ent_mag": 64.70798879091431, "train/post_ent_max": 64.70798879091431, "train/post_ent_mean": 40.11747848095537, "train/post_ent_min": 11.183928113405397, "train/post_ent_std": 5.723175431595368, "train/prior_ent_mag": 85.31182664105681, "train/prior_ent_max": 85.31182664105681, "train/prior_ent_mean": 43.05336618747841, "train/prior_ent_min": 13.626302816429916, "train/prior_ent_std": 7.860983183594788, "train/rep_loss_mean": 2.923486378728127, "train/rep_loss_std": 6.192875469622969, "train/reward_avg": 1.4780638818027212, "train/reward_loss_mean": 0.06789389191841592, "train/reward_loss_std": 0.23719296893294978, "train/reward_max_data": 316.25850340136054, "train/reward_max_pred": 260.3360893483065, "train/reward_neg_acc": 0.9825101551555452, "train/reward_neg_loss": 0.005955281758484538, "train/reward_pos_acc": 0.9952415333313196, "train/reward_pos_loss": 0.6147246908168403, "train/reward_pred": 1.356688138173551, "train/reward_rate": 0.1020142431972789, "train_stats/mean_log_entropy": 0.6263254483540853, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.5610726627055556e-05, "report/cont_loss_std": 0.001034619053825736, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.0034541345667094e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.559662582119927e-05, "report/cont_pred": 0.9989884495735168, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.8961126804351807, "report/dyn_loss_std": 6.179245948791504, "report/image_loss_mean": 0.9870845079421997, "report/image_loss_std": 0.7733777165412903, "report/model_loss_mean": 2.7940914630889893, "report/model_loss_std": 4.2080512046813965, "report/post_ent_mag": 62.95891189575195, "report/post_ent_max": 62.95891189575195, "report/post_ent_mean": 39.9592399597168, "report/post_ent_min": 9.48430061340332, "report/post_ent_std": 4.9017839431762695, "report/prior_ent_mag": 85.66050720214844, "report/prior_ent_max": 85.66050720214844, "report/prior_ent_mean": 42.77919387817383, "report/prior_ent_min": 11.370144844055176, "report/prior_ent_std": 7.276822090148926, "report/rep_loss_mean": 2.8961126804351807, "report/rep_loss_std": 6.179245948791504, "report/reward_avg": 1.884765625, "report/reward_loss_mean": 0.0693037211894989, "report/reward_loss_std": 0.2542142868041992, "report/reward_max_data": 500.0, "report/reward_max_pred": 492.8524169921875, "report/reward_neg_acc": 0.9709364771842957, "report/reward_neg_loss": 0.011385178193449974, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6356860399246216, "report/reward_pred": 1.7760777473449707, "report/reward_rate": 0.0927734375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.012755610048770905, "eval/cont_loss_std": 0.16353479027748108, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 1.8960247039794922, "eval/cont_pos_acc": 0.9970587491989136, "eval/cont_pos_loss": 0.005370242055505514, "eval/cont_pred": 0.9956594109535217, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.589444160461426, "eval/dyn_loss_std": 9.983875274658203, "eval/image_loss_mean": 1.4300215244293213, "eval/image_loss_std": 2.024502754211426, "eval/model_loss_mean": 5.665221214294434, "eval/model_loss_std": 7.592042922973633, "eval/post_ent_mag": 65.58479309082031, "eval/post_ent_max": 65.58479309082031, "eval/post_ent_mean": 40.20240020751953, "eval/post_ent_min": 9.204084396362305, "eval/post_ent_std": 6.134604454040527, "eval/prior_ent_mag": 85.66050720214844, "eval/prior_ent_max": 85.66050720214844, "eval/prior_ent_mean": 43.99639129638672, "eval/prior_ent_min": 9.679401397705078, "eval/prior_ent_std": 8.302460670471191, "eval/rep_loss_mean": 6.589444160461426, "eval/rep_loss_std": 9.983875274658203, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.2687780261039734, "eval/reward_loss_std": 1.5304887294769287, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 302.69110107421875, "eval/reward_neg_acc": 0.9680967926979065, "eval/reward_neg_loss": 0.029115911573171616, "eval/reward_pos_acc": 0.8434782028198242, "eval/reward_pos_loss": 2.1631505489349365, "eval/reward_pred": 1.253306269645691, "eval/reward_rate": 0.1123046875, "replay/size": 341469.0, "replay/inserts": 1409.0, "replay/samples": 23536.0, "replay/insert_wait_avg": 5.208489910095951e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3208952507625868e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.115964889526367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 288.95430994033813, "timer/replay._sample_count": 23536.0, "timer/replay._sample_total": 363.23339915275574, "timer/replay._sample_frac": 1.257061710648145, "timer/replay._sample_avg": 0.015433098196497099, "timer/replay._sample_min": 0.00041866302490234375, "timer/replay._sample_max": 0.09631800651550293, "timer/env.step_count": 1471.0, "timer/env.step_total": 6.808677911758423, "timer/env.step_frac": 0.02356316440880998, "timer/env.step_avg": 0.004628604970603958, "timer/env.step_min": 0.0026006698608398438, "timer/env.step_max": 0.034124135971069336, "timer/agent.policy_count": 1471.0, "timer/agent.policy_total": 104.35741186141968, "timer/agent.policy_frac": 0.361155408559114, "timer/agent.policy_avg": 0.07094317597649197, "timer/agent.policy_min": 0.0031676292419433594, "timer/agent.policy_max": 0.09104609489440918, "timer/dataset_train_count": 1471.0, "timer/dataset_train_total": 0.151780366897583, "timer/dataset_train_frac": 0.0005252746253513985, "timer/dataset_train_avg": 0.00010318175859794902, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.00044846534729003906, "timer/agent.train_count": 1471.0, "timer/agent.train_total": 176.28681063652039, "timer/agent.train_frac": 0.6100854168706438, "timer/agent.train_avg": 0.11984147561966035, "timer/agent.train_min": 0.10619688034057617, "timer/agent.train_max": 0.20819830894470215, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26271891593933105, "timer/agent.report_frac": 0.0009092057356527264, "timer/agent.report_avg": 0.13135945796966553, "timer/agent.report_min": 0.10266447067260742, "timer/agent.report_max": 0.16005444526672363, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.083747863769531e-05, "timer/dataset_eval_frac": 3.1436623546626107e-07, "timer/dataset_eval_avg": 9.083747863769531e-05, "timer/dataset_eval_min": 9.083747863769531e-05, "timer/dataset_eval_max": 9.083747863769531e-05, "fps": 20.361611241754222}
{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.919189453125, "train/action_min": 0.0, "train/action_std": 4.763094902038574, "train/actor_opt_grad_norm": 0.007469731383025646, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0005293449503369629, "train/adv_mag": 0.9735181927680969, "train/adv_max": 0.9735181927680969, "train/adv_mean": 0.003345634788274765, "train/adv_min": -0.7257456183433533, "train/adv_std": 0.03932726010680199, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 3.123486749245785e-07, "train/cont_loss_std": 3.927013494831044e-06, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.29703819565475e-05, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.21773873931852e-07, "train/cont_pred": 0.9990233182907104, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 2.673576831817627, "train/dyn_loss_std": 5.754738807678223, "train/extr_critic_critic_opt_grad_norm": 1.381637454032898, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.3448448181152344, "train/extr_critic_mag": 484.89068603515625, "train/extr_critic_max": 484.89068603515625, "train/extr_critic_mean": 234.94630432128906, "train/extr_critic_min": 0.00018656253814697266, "train/extr_critic_std": 159.26556396484375, "train/extr_return_normed_mag": 1.352850317955017, "train/extr_return_normed_max": 1.352850317955017, "train/extr_return_normed_mean": 0.5313732028007507, "train/extr_return_normed_min": -0.013346838764846325, "train/extr_return_normed_std": 0.37077099084854126, "train/extr_return_rate": 0.9151692986488342, "train/extr_return_raw_mag": 592.9038696289062, "train/extr_return_raw_max": 592.9038696289062, "train/extr_return_raw_mean": 236.3982391357422, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 160.90762329101562, "train/extr_reward_mag": 500.04974365234375, "train/extr_reward_max": 500.04974365234375, "train/extr_reward_mean": 1.3268667459487915, "train/extr_reward_min": 0.0, "train/extr_reward_std": 17.220260620117188, "train/image_loss_mean": 0.7784419059753418, "train/image_loss_std": 0.744170606136322, "train/model_loss_mean": 2.423708915710449, "train/model_loss_std": 3.9234864711761475, "train/model_opt_grad_norm": 7.1850996017456055, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.423708915710449, "train/policy_entropy_mag": 2.791579008102417, "train/policy_entropy_max": 2.791579008102417, "train/policy_entropy_mean": 0.8645632863044739, "train/policy_entropy_min": 0.0801914781332016, "train/policy_entropy_std": 0.7566852569580078, "train/policy_logprob_mag": 7.49553918838501, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.8549119234085083, "train/policy_logprob_min": -7.49553918838501, "train/policy_logprob_std": 1.2444514036178589, "train/policy_randomness_mag": 0.9658200740814209, "train/policy_randomness_max": 0.9658200740814209, "train/policy_randomness_mean": 0.29911836981773376, "train/policy_randomness_min": 0.027744347229599953, "train/policy_randomness_std": 0.26179513335227966, "train/post_ent_mag": 67.82240295410156, "train/post_ent_max": 67.82240295410156, "train/post_ent_mean": 39.70154571533203, "train/post_ent_min": 8.497734069824219, "train/post_ent_std": 6.331284046173096, "train/prior_ent_mag": 85.22042846679688, "train/prior_ent_max": 85.22042846679688, "train/prior_ent_mean": 42.578102111816406, "train/prior_ent_min": 10.28565788269043, "train/prior_ent_std": 8.358355522155762, "train/rep_loss_mean": 2.673576831817627, "train/rep_loss_std": 5.754738807678223, "train/reward_avg": 1.19140625, "train/reward_loss_mean": 0.04112059995532036, "train/reward_loss_std": 0.14758364856243134, "train/reward_max_data": 500.0, "train/reward_max_pred": 499.2762145996094, "train/reward_neg_acc": 0.9873949885368347, "train/reward_neg_loss": 0.001815376221202314, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.5608229637145996, "train/reward_pred": 1.175591230392456, "train/reward_rate": 0.0703125, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4142495956548373e-06, "report/cont_loss_std": 2.345051325391978e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.977300578611903e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4058790611670702e-06, "report/cont_pred": 0.9990220665931702, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6086392402648926, "report/dyn_loss_std": 5.671748161315918, "report/image_loss_mean": 0.7528027296066284, "report/image_loss_std": 0.6592075824737549, "report/model_loss_mean": 2.359610080718994, "report/model_loss_std": 3.8019134998321533, "report/post_ent_mag": 67.83888244628906, "report/post_ent_max": 67.83888244628906, "report/post_ent_mean": 39.703556060791016, "report/post_ent_min": 8.336932182312012, "report/post_ent_std": 6.401758193969727, "report/prior_ent_mag": 85.18473052978516, "report/prior_ent_max": 85.18473052978516, "report/prior_ent_mean": 42.52101516723633, "report/prior_ent_min": 10.113420486450195, "report/prior_ent_std": 8.369726181030273, "report/rep_loss_mean": 2.6086392402648926, "report/rep_loss_std": 5.671748161315918, "report/reward_avg": 1.19140625, "report/reward_loss_mean": 0.0416223406791687, "report/reward_loss_std": 0.15339156985282898, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.879150390625, "report/reward_neg_acc": 0.9873949885368347, "report/reward_neg_loss": 0.0018732864409685135, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5671932101249695, "report/reward_pred": 1.1769075393676758, "report/reward_rate": 0.0703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001789817470125854, "eval/cont_loss_std": 0.04130301624536514, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.09047512710094452, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.001703126123175025, "eval/cont_pred": 0.9980151653289795, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.117673873901367, "eval/dyn_loss_std": 10.64471435546875, "eval/image_loss_mean": 3.3284201622009277, "eval/image_loss_std": 3.2205443382263184, "eval/model_loss_mean": 10.249551773071289, "eval/model_loss_std": 9.258655548095703, "eval/post_ent_mag": 62.50816345214844, "eval/post_ent_max": 62.50816345214844, "eval/post_ent_mean": 39.99137878417969, "eval/post_ent_min": 12.916196823120117, "eval/post_ent_std": 5.257755279541016, "eval/prior_ent_mag": 85.18473052978516, "eval/prior_ent_max": 85.18473052978516, "eval/prior_ent_mean": 45.28280258178711, "eval/prior_ent_min": 14.344482421875, "eval/prior_ent_std": 7.32644510269165, "eval/rep_loss_mean": 11.117673873901367, "eval/rep_loss_std": 10.64471435546875, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.24873775243759155, "eval/reward_loss_std": 1.4170230627059937, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.01032829284668, "eval/reward_neg_acc": 0.9560557007789612, "eval/reward_neg_loss": 0.02051517553627491, "eval/reward_pos_acc": 0.791208803653717, "eval/reward_pos_loss": 2.588646173477173, "eval/reward_pred": 0.6476538181304932, "eval/reward_rate": 0.0888671875, "replay/size": 341982.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.6668013163975308e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9243785313197544e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 93.41970109939575, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 17.44376564025879, "timer/replay._sample_frac": 0.1867246997686189, "timer/replay._sample_avg": 0.15574790750231063, "timer/replay._sample_min": 0.02174067497253418, "timer/replay._sample_max": 0.7548568248748779, "timer/env.step_count": 1.0, "timer/env.step_total": 0.03582167625427246, "timer/env.step_frac": 0.0003834488425108455, "timer/env.step_avg": 0.03582167625427246, "timer/env.step_min": 0.03582167625427246, "timer/env.step_max": 0.03582167625427246, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 9.733927249908447, "timer/agent.policy_frac": 0.10419565825362513, "timer/agent.policy_avg": 9.733927249908447, "timer/agent.policy_min": 9.733927249908447, "timer/agent.policy_max": 9.733927249908447, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 5.14984130859375e-05, "timer/dataset_train_frac": 5.512585940640587e-07, "timer/dataset_train_avg": 5.14984130859375e-05, "timer/dataset_train_min": 5.14984130859375e-05, "timer/dataset_train_max": 5.14984130859375e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 56.091527223587036, "timer/agent.train_frac": 0.6004250341574883, "timer/agent.train_avg": 56.091527223587036, "timer/agent.train_min": 56.091527223587036, "timer/agent.train_max": 56.091527223587036, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.081090688705444, "timer/agent.report_frac": 0.11861620791224216, "timer/agent.report_avg": 5.540545344352722, "timer/agent.report_min": 0.10289525985717773, "timer/agent.report_max": 10.978195428848267, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.000202178955078125, "timer/dataset_eval_frac": 2.164200406325564e-06, "timer/dataset_eval_avg": 0.000202178955078125, "timer/dataset_eval_min": 0.000202178955078125, "timer/dataset_eval_max": 0.000202178955078125}
{"step": 597136, "episode/length": 783.0, "episode/score": 1100.0, "episode/reward_rate": 0.0778061224489796}
{"step": 598744, "episode/length": 401.0, "episode/score": 1000.0, "episode/reward_rate": 0.12686567164179105}
{"step": 599828, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.592617692618534, "train/action_min": 0.0, "train/action_std": 4.266545399304094, "train/actor_opt_grad_norm": 0.00961782091843157, "train/actor_opt_grad_steps": 148130.0, "train/actor_opt_loss": 0.00019729051361129426, "train/adv_mag": 1.0078029141343874, "train/adv_max": 0.966947766624648, "train/adv_mean": 0.0027516158941580217, "train/adv_min": -0.6589424268952732, "train/adv_std": 0.04752283346164843, "train/cont_avg": 0.9981883081896552, "train/cont_loss_mean": 0.0003654988730583338, "train/cont_loss_std": 0.009370787642794295, "train/cont_neg_acc": 0.9484496130499729, "train/cont_neg_loss": 0.11775829334825509, "train/cont_pos_acc": 0.9999662374628001, "train/cont_pos_loss": 0.00015432512537600227, "train/cont_pred": 0.9981719954260464, "train/cont_rate": 0.9981883081896552, "train/dyn_loss_mean": 2.9235131641914105, "train/dyn_loss_std": 6.20031062159045, "train/extr_critic_critic_opt_grad_norm": 1.478262357465152, "train/extr_critic_critic_opt_grad_steps": 148130.0, "train/extr_critic_critic_opt_loss": 1.3917869929609628, "train/extr_critic_mag": 506.57575241615035, "train/extr_critic_max": 506.57575241615035, "train/extr_critic_mean": 246.66811123551994, "train/extr_critic_min": 0.668879770410472, "train/extr_critic_std": 158.29231051740976, "train/extr_return_normed_mag": 1.6307960288277987, "train/extr_return_normed_max": 1.6307960288277987, "train/extr_return_normed_mean": 0.550106339208011, "train/extr_return_normed_min": -0.015900847274039325, "train/extr_return_normed_std": 0.36701535623649073, "train/extr_return_rate": 0.9438349086662818, "train/extr_return_raw_mag": 719.598831702923, "train/extr_return_raw_max": 719.598831702923, "train/extr_return_raw_mean": 247.86980075178477, "train/extr_return_raw_min": 0.8093468708530116, "train/extr_return_raw_std": 160.20609025626348, "train/extr_reward_mag": 405.84305068706647, "train/extr_reward_max": 405.84305068706647, "train/extr_reward_mean": 1.358854507988897, "train/extr_reward_min": 0.0, "train/extr_reward_std": 11.958910453730615, "train/image_loss_mean": 0.8729064501565078, "train/image_loss_std": 0.807002973145452, "train/model_loss_mean": 2.694345336124815, "train/model_loss_std": 4.258003512744246, "train/model_opt_grad_norm": 9.285036843398522, "train/model_opt_grad_steps": 148130.0, "train/model_opt_loss": 2.694345336124815, "train/policy_entropy_mag": 2.741768878081749, "train/policy_entropy_max": 2.741768878081749, "train/policy_entropy_mean": 0.6990632349047168, "train/policy_entropy_min": 0.08019121890438013, "train/policy_entropy_std": 0.6912457540117461, "train/policy_logprob_mag": 7.495541723843279, "train/policy_logprob_max": -0.009489538604072456, "train/policy_logprob_mean": -0.6983669766064348, "train/policy_logprob_min": -7.495541723843279, "train/policy_logprob_std": 1.1934686586774628, "train/policy_randomness_mag": 0.9485869514531102, "train/policy_randomness_max": 0.9485869514531102, "train/policy_randomness_mean": 0.24185928712631094, "train/policy_randomness_min": 0.027744258285082618, "train/policy_randomness_std": 0.23915462175319935, "train/post_ent_mag": 64.8772156814049, "train/post_ent_max": 64.8772156814049, "train/post_ent_mean": 40.247472065892715, "train/post_ent_min": 10.636414192462789, "train/post_ent_std": 5.711438613102354, "train/prior_ent_mag": 85.28959550528691, "train/prior_ent_max": 85.28959550528691, "train/prior_ent_mean": 43.16535865520609, "train/prior_ent_min": 12.942228271221293, "train/prior_ent_std": 7.828296325946677, "train/rep_loss_mean": 2.9235131641914105, "train/rep_loss_std": 6.20031062159045, "train/reward_avg": 1.5334051724137931, "train/reward_loss_mean": 0.06696549504995346, "train/reward_loss_std": 0.2261545508072294, "train/reward_max_data": 337.1034482758621, "train/reward_max_pred": 299.15797273701634, "train/reward_neg_acc": 0.9832441325845389, "train/reward_neg_loss": 0.005201192096614375, "train/reward_pos_acc": 0.9971535822440838, "train/reward_pos_loss": 0.6044427329096301, "train/reward_pred": 1.4235898083653944, "train/reward_rate": 0.10331357758620689, "train_stats/mean_log_entropy": 0.7867594957351685, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.965299910646536e-08, "report/cont_loss_std": 8.763540222389565e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.965299910646536e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.0956053733825684, "report/dyn_loss_std": 6.122330188751221, "report/image_loss_mean": 0.9942407011985779, "report/image_loss_std": 0.8864707946777344, "report/model_loss_mean": 2.9163055419921875, "report/model_loss_std": 4.26287841796875, "report/post_ent_mag": 57.52455520629883, "report/post_ent_max": 57.52455520629883, "report/post_ent_mean": 40.418609619140625, "report/post_ent_min": 9.214859008789062, "report/post_ent_std": 5.636730194091797, "report/prior_ent_mag": 85.36527252197266, "report/prior_ent_max": 85.36527252197266, "report/prior_ent_mean": 43.62339782714844, "report/prior_ent_min": 9.48548412322998, "report/prior_ent_std": 7.250607967376709, "report/rep_loss_mean": 3.0956053733825684, "report/rep_loss_std": 6.122330188751221, "report/reward_avg": 1.787109375, "report/reward_loss_mean": 0.06470144540071487, "report/reward_loss_std": 0.3185465633869171, "report/reward_max_data": 500.0, "report/reward_max_pred": 498.789306640625, "report/reward_neg_acc": 0.9776595234870911, "report/reward_neg_loss": 0.006288694683462381, "report/reward_pos_acc": 0.9761905074119568, "report/reward_pos_loss": 0.7183679342269897, "report/reward_pred": 1.7368090152740479, "report/reward_rate": 0.08203125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.019328469410538673, "eval/cont_loss_std": 0.39738157391548157, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 4.802393913269043, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.0005713484133593738, "eval/cont_pred": 0.9987851977348328, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.468146324157715, "eval/dyn_loss_std": 9.369248390197754, "eval/image_loss_mean": 1.4088919162750244, "eval/image_loss_std": 1.9976773262023926, "eval/model_loss_mean": 5.530977249145508, "eval/model_loss_std": 7.1700568199157715, "eval/post_ent_mag": 64.01929473876953, "eval/post_ent_max": 64.01929473876953, "eval/post_ent_mean": 40.1487922668457, "eval/post_ent_min": 7.739168167114258, "eval/post_ent_std": 5.851747512817383, "eval/prior_ent_mag": 85.36527252197266, "eval/prior_ent_max": 85.36527252197266, "eval/prior_ent_mean": 44.191802978515625, "eval/prior_ent_min": 9.083107948303223, "eval/prior_ent_std": 8.303360939025879, "eval/rep_loss_mean": 6.468146324157715, "eval/rep_loss_std": 9.369248390197754, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.22186914086341858, "eval/reward_loss_std": 1.278944969177246, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 497.6153259277344, "eval/reward_neg_acc": 0.9680967926979065, "eval/reward_neg_loss": 0.021855473518371582, "eval/reward_pos_acc": 0.8782608509063721, "eval/reward_pos_loss": 1.8028466701507568, "eval/reward_pred": 1.4237960577011108, "eval/reward_rate": 0.1123046875, "replay/size": 343376.0, "replay/inserts": 1394.0, "replay/samples": 23296.0, "replay/insert_wait_avg": 5.0849517756589346e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4162653095119602e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.9355287551879883e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.36564326286316, "timer/replay._sample_count": 23296.0, "timer/replay._sample_total": 365.311146736145, "timer/replay._sample_frac": 1.2624551505732562, "timer/replay._sample_avg": 0.015681282054264466, "timer/replay._sample_min": 0.0004341602325439453, "timer/replay._sample_max": 0.04165768623352051, "timer/env.step_count": 1456.0, "timer/env.step_total": 6.5582380294799805, "timer/env.step_frac": 0.02266419038393718, "timer/env.step_avg": 0.00450428436090658, "timer/env.step_min": 0.002482891082763672, "timer/env.step_max": 0.03240394592285156, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 103.48434734344482, "timer/agent.policy_frac": 0.35762485890364815, "timer/agent.policy_avg": 0.07107441438423408, "timer/agent.policy_min": 0.0031042098999023438, "timer/agent.policy_max": 0.08481264114379883, "timer/dataset_train_count": 1456.0, "timer/dataset_train_total": 0.15777802467346191, "timer/dataset_train_frac": 0.0005452548647253692, "timer/dataset_train_avg": 0.00010836402793507, "timer/dataset_train_min": 6.29425048828125e-05, "timer/dataset_train_max": 0.0035393238067626953, "timer/agent.train_count": 1456.0, "timer/agent.train_total": 177.8183147907257, "timer/agent.train_frac": 0.6145108064166189, "timer/agent.train_avg": 0.12212796345516876, "timer/agent.train_min": 0.10825204849243164, "timer/agent.train_max": 0.2087879180908203, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2743995189666748, "timer/agent.report_frac": 0.0009482795395907007, "timer/agent.report_avg": 0.1371997594833374, "timer/agent.report_min": 0.1054697036743164, "timer/agent.report_max": 0.1689298152923584, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.581710815429688e-05, "timer/dataset_eval_frac": 2.620114374995919e-07, "timer/dataset_eval_avg": 7.581710815429688e-05, "timer/dataset_eval_min": 7.581710815429688e-05, "timer/dataset_eval_max": 7.581710815429688e-05, "fps": 20.125680697624563}
{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.10009765625, "train/action_min": 0.0, "train/action_std": 4.221034049987793, "train/actor_opt_grad_norm": 0.011781970039010048, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.00048358988715335727, "train/adv_mag": 0.8793120980262756, "train/adv_max": 0.8793120980262756, "train/adv_mean": 0.0026548486202955246, "train/adv_min": -0.6841374039649963, "train/adv_std": 0.04383329302072525, "train/cont_avg": 0.998046875, "train/cont_loss_mean": 4.440043630893342e-05, "train/cont_loss_std": 0.0008023229893296957, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009383453871123493, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.2651034164009616e-05, "train/cont_pred": 0.9980064630508423, "train/cont_rate": 0.998046875, "train/dyn_loss_mean": 2.798854351043701, "train/dyn_loss_std": 5.660184860229492, "train/extr_critic_critic_opt_grad_norm": 1.329728603363037, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.4022725820541382, "train/extr_critic_mag": 475.6094970703125, "train/extr_critic_max": 475.6094970703125, "train/extr_critic_mean": 242.92408752441406, "train/extr_critic_min": 3.6835670471191406e-05, "train/extr_critic_std": 161.8624267578125, "train/extr_return_normed_mag": 1.3274027109146118, "train/extr_return_normed_max": 1.3274027109146118, "train/extr_return_normed_mean": 0.5487130880355835, "train/extr_return_normed_min": -0.013337976299226284, "train/extr_return_normed_std": 0.3746810853481293, "train/extr_return_rate": 0.9145182967185974, "train/extr_return_raw_mag": 582.2317504882812, "train/extr_return_raw_max": 582.2317504882812, "train/extr_return_raw_mean": 244.0769805908203, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 162.70948791503906, "train/extr_reward_mag": 498.88037109375, "train/extr_reward_max": 498.88037109375, "train/extr_reward_mean": 1.2693344354629517, "train/extr_reward_min": 0.0, "train/extr_reward_std": 11.19693374633789, "train/image_loss_mean": 0.8906815052032471, "train/image_loss_std": 0.683410108089447, "train/model_loss_mean": 2.64449143409729, "train/model_loss_std": 3.832873582839966, "train/model_opt_grad_norm": 7.5805840492248535, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.64449143409729, "train/policy_entropy_mag": 2.7745702266693115, "train/policy_entropy_max": 2.7745702266693115, "train/policy_entropy_mean": 0.6832858920097351, "train/policy_entropy_min": 0.08019115775823593, "train/policy_entropy_std": 0.7046073079109192, "train/policy_logprob_mag": 7.495542049407959, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.6792235374450684, "train/policy_logprob_min": -7.495542049407959, "train/policy_logprob_std": 1.1758332252502441, "train/policy_randomness_mag": 0.9599354267120361, "train/policy_randomness_max": 0.9599354267120361, "train/policy_randomness_mean": 0.23640067875385284, "train/policy_randomness_min": 0.027744237333536148, "train/policy_randomness_std": 0.24377740919589996, "train/post_ent_mag": 64.17669677734375, "train/post_ent_max": 64.17669677734375, "train/post_ent_mean": 41.21454620361328, "train/post_ent_min": 20.624731063842773, "train/post_ent_std": 4.865030288696289, "train/prior_ent_mag": 85.22042846679688, "train/prior_ent_max": 85.22042846679688, "train/prior_ent_mean": 44.215484619140625, "train/prior_ent_min": 23.281845092773438, "train/prior_ent_std": 7.256644248962402, "train/rep_loss_mean": 2.798854351043701, "train/rep_loss_std": 5.660184860229492, "train/reward_avg": 1.611328125, "train/reward_loss_mean": 0.07445301115512848, "train/reward_loss_std": 0.22490094602108002, "train/reward_max_data": 500.0, "train/reward_max_pred": 473.4515075683594, "train/reward_neg_acc": 0.9823982119560242, "train/reward_neg_loss": 0.008457722142338753, "train/reward_pos_acc": 0.9999999403953552, "train/reward_pos_loss": 0.596102774143219, "train/reward_pred": 1.5447068214416504, "train/reward_rate": 0.1123046875, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00011078693205490708, "report/cont_loss_std": 0.0031701165717095137, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.05065452307462692, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1875514246639796e-05, "report/cont_pred": 0.99812912940979, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.8216171264648438, "report/dyn_loss_std": 5.655733585357666, "report/image_loss_mean": 0.886755108833313, "report/image_loss_std": 0.6758187413215637, "report/model_loss_mean": 2.6485204696655273, "report/model_loss_std": 3.82515025138855, "report/post_ent_mag": 64.18399810791016, "report/post_ent_max": 64.18399810791016, "report/post_ent_mean": 41.35414123535156, "report/post_ent_min": 21.306129455566406, "report/post_ent_std": 4.818498134613037, "report/prior_ent_mag": 85.17665100097656, "report/prior_ent_max": 85.17665100097656, "report/prior_ent_mean": 44.216026306152344, "report/prior_ent_min": 24.24230194091797, "report/prior_ent_std": 7.225021839141846, "report/rep_loss_mean": 2.8216171264648438, "report/rep_loss_std": 5.655733585357666, "report/reward_avg": 1.611328125, "report/reward_loss_mean": 0.06868445873260498, "report/reward_loss_std": 0.19509130716323853, "report/reward_max_data": 500.0, "report/reward_max_pred": 19.99837875366211, "report/reward_neg_acc": 0.9878987669944763, "report/reward_neg_loss": 0.004198160488158464, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5784065127372742, "report/reward_pred": 1.094677209854126, "report/reward_rate": 0.1123046875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001193382777273655, "eval/cont_loss_std": 0.022300103679299355, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.2706451714038849, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0009299890953116119, "eval/cont_pred": 0.9985095262527466, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.374866485595703, "eval/dyn_loss_std": 11.0084810256958, "eval/image_loss_mean": 3.376953125, "eval/image_loss_std": 3.3184938430786133, "eval/model_loss_mean": 10.458094596862793, "eval/model_loss_std": 9.649768829345703, "eval/post_ent_mag": 62.516502380371094, "eval/post_ent_max": 62.516502380371094, "eval/post_ent_mean": 39.884403228759766, "eval/post_ent_min": 12.395282745361328, "eval/post_ent_std": 5.2743988037109375, "eval/prior_ent_mag": 85.17665100097656, "eval/prior_ent_max": 85.17665100097656, "eval/prior_ent_mean": 45.305320739746094, "eval/prior_ent_min": 13.802094459533691, "eval/prior_ent_std": 7.337748050689697, "eval/rep_loss_mean": 11.374866485595703, "eval/rep_loss_std": 11.0084810256958, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2550285756587982, "eval/reward_loss_std": 1.5452145338058472, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.010356903076172, "eval/reward_neg_acc": 0.9571275115013123, "eval/reward_neg_loss": 0.02201765403151512, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.644031047821045, "eval/reward_pred": 0.6839714646339417, "eval/reward_rate": 0.0888671875, "replay/size": 343904.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.5667506626674107e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.783881868634905e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 92.21573829650879, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 18.126039266586304, "timer/replay._sample_frac": 0.19656123348819451, "timer/replay._sample_avg": 0.1618396363088063, "timer/replay._sample_min": 0.022192001342773438, "timer/replay._sample_max": 0.7250394821166992, "timer/env.step_count": 1.0, "timer/env.step_total": 0.037042856216430664, "timer/env.step_frac": 0.0004016977676557091, "timer/env.step_avg": 0.037042856216430664, "timer/env.step_min": 0.037042856216430664, "timer/env.step_max": 0.037042856216430664, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 9.811337232589722, "timer/agent.policy_frac": 0.10639547450178763, "timer/agent.policy_avg": 9.811337232589722, "timer/agent.policy_min": 9.811337232589722, "timer/agent.policy_max": 9.811337232589722, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 0.0001571178436279297, "timer/dataset_train_frac": 1.7038072516725493e-06, "timer/dataset_train_avg": 0.0001571178436279297, "timer/dataset_train_min": 0.0001571178436279297, "timer/dataset_train_max": 0.0001571178436279297, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.20272660255432, "timer/agent.train_frac": 0.598625870402474, "timer/agent.train_avg": 55.20272660255432, "timer/agent.train_min": 55.20272660255432, "timer/agent.train_max": 55.20272660255432, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.298843622207642, "timer/agent.report_frac": 0.12252619597185838, "timer/agent.report_avg": 5.649421811103821, "timer/agent.report_min": 0.10311770439147949, "timer/agent.report_max": 11.195725917816162, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00020742416381835938, "timer/dataset_eval_frac": 2.249335825425065e-06, "timer/dataset_eval_avg": 0.00020742416381835938, "timer/dataset_eval_min": 0.00020742416381835938, "timer/dataset_eval_max": 0.00020742416381835938}
{"step": 595564, "episode/length": 390.0, "episode/score": 1010.0, "episode/reward_rate": 0.13043478260869565}
{"step": 597508, "episode/length": 485.0, "episode/score": 1110.0, "episode/reward_rate": 0.12757201646090535}
{"step": 599100, "episode/length": 397.0, "episode/score": 1010.0, "episode/reward_rate": 0.1306532663316583}
{"step": 599864, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.541582081415882, "train/action_min": 0.0, "train/action_std": 4.322859032513344, "train/actor_opt_grad_norm": 0.009405079468357542, "train/actor_opt_grad_steps": 148135.0, "train/actor_opt_loss": 0.0002484895479788626, "train/adv_mag": 0.9281012373019571, "train/adv_max": 0.8883332579511486, "train/adv_mean": 0.0030115703953669417, "train/adv_min": -0.6463575222312588, "train/adv_std": 0.04518986279655197, "train/cont_avg": 0.9982542273116438, "train/cont_loss_mean": 0.0006431868773125889, "train/cont_loss_std": 0.017823473843157207, "train/cont_neg_acc": 0.918635171698773, "train/cont_neg_loss": 0.24277749841075286, "train/cont_pos_acc": 0.9999664597315331, "train/cont_pos_loss": 0.00015456042289550088, "train/cont_pred": 0.9983028312251992, "train/cont_rate": 0.9982542273116438, "train/dyn_loss_mean": 2.891135952244066, "train/dyn_loss_std": 6.076391553225583, "train/extr_critic_critic_opt_grad_norm": 1.4966786728329855, "train/extr_critic_critic_opt_grad_steps": 148135.0, "train/extr_critic_critic_opt_loss": 1.4070659982015008, "train/extr_critic_mag": 492.71980724596, "train/extr_critic_max": 492.71980724596, "train/extr_critic_mean": 246.26416987588962, "train/extr_critic_min": 0.04695858775752865, "train/extr_critic_std": 157.26227747250908, "train/extr_return_normed_mag": 1.5472016252883494, "train/extr_return_normed_max": 1.5472016252883494, "train/extr_return_normed_mean": 0.5498564131047627, "train/extr_return_normed_min": -0.016997096919748066, "train/extr_return_normed_std": 0.3639707398945338, "train/extr_return_rate": 0.9465508648793991, "train/extr_return_raw_mag": 683.179904467439, "train/extr_return_raw_max": 683.179904467439, "train/extr_return_raw_mean": 247.57930306212543, "train/extr_return_raw_min": 0.057550478709282746, "train/extr_return_raw_std": 158.95534290679512, "train/extr_reward_mag": 416.1450466260518, "train/extr_reward_max": 416.1450466260518, "train/extr_reward_mean": 1.4060276971287924, "train/extr_reward_min": 0.0, "train/extr_reward_std": 12.88173713259501, "train/image_loss_mean": 0.8717575281450193, "train/image_loss_std": 0.8051811334205, "train/model_loss_mean": 2.674501753833196, "train/model_loss_std": 4.17490271836111, "train/model_opt_grad_norm": 9.041272636962264, "train/model_opt_grad_steps": 148135.0, "train/model_opt_loss": 2.674501753833196, "train/policy_entropy_mag": 2.751478080880152, "train/policy_entropy_max": 2.751478080880152, "train/policy_entropy_mean": 0.6952602746960235, "train/policy_entropy_min": 0.08019122511964955, "train/policy_entropy_std": 0.6876257123195961, "train/policy_logprob_mag": 7.4955416509549915, "train/policy_logprob_max": -0.009489539474861263, "train/policy_logprob_mean": -0.6959200509606975, "train/policy_logprob_min": -7.4955416509549915, "train/policy_logprob_std": 1.1956993708871815, "train/policy_randomness_mag": 0.9519461042260471, "train/policy_randomness_max": 0.9519461042260471, "train/policy_randomness_mean": 0.24054355378428552, "train/policy_randomness_min": 0.027744260386959332, "train/policy_randomness_std": 0.2379021746655033, "train/post_ent_mag": 64.39434568849329, "train/post_ent_max": 64.39434568849329, "train/post_ent_mean": 40.18327302802099, "train/post_ent_min": 10.985470278622353, "train/post_ent_std": 5.712901053363329, "train/prior_ent_mag": 85.15435367740997, "train/prior_ent_max": 85.15435367740997, "train/prior_ent_mean": 43.10224972032521, "train/prior_ent_min": 13.730051974727683, "train/prior_ent_std": 7.815881111850477, "train/rep_loss_mean": 2.891135952244066, "train/rep_loss_std": 6.076391553225583, "train/reward_avg": 1.5742722602739727, "train/reward_loss_mean": 0.06741945325613838, "train/reward_loss_std": 0.22983960572579135, "train/reward_max_data": 337.8082191780822, "train/reward_max_pred": 310.0088753765576, "train/reward_neg_acc": 0.982891854358046, "train/reward_neg_loss": 0.005486699154485681, "train/reward_pos_acc": 0.9967487768767631, "train/reward_pos_loss": 0.6077463647274122, "train/reward_pred": 1.4694550911041155, "train/reward_rate": 0.1031343642979452, "train_stats/mean_log_entropy": 0.6049447655677795, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 4.894013545708731e-05, "report/cont_loss_std": 0.0007514728349633515, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009071831591427326, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 1.3556250451074447e-05, "report/cont_pred": 0.9961154460906982, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.755746364593506, "report/dyn_loss_std": 5.685604572296143, "report/image_loss_mean": 0.8346996307373047, "report/image_loss_std": 0.7730435729026794, "report/model_loss_mean": 2.54890513420105, "report/model_loss_std": 3.896986961364746, "report/post_ent_mag": 66.52307891845703, "report/post_ent_max": 66.52307891845703, "report/post_ent_mean": 40.33024597167969, "report/post_ent_min": 8.001229286193848, "report/post_ent_std": 5.958309173583984, "report/prior_ent_mag": 85.30345916748047, "report/prior_ent_max": 85.30345916748047, "report/prior_ent_mean": 43.21773910522461, "report/prior_ent_min": 9.79346752166748, "report/prior_ent_std": 8.010944366455078, "report/rep_loss_mean": 2.755746364593506, "report/rep_loss_std": 5.685604572296143, "report/reward_avg": 1.54296875, "report/reward_loss_mean": 0.06070858612656593, "report/reward_loss_std": 0.17968201637268066, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.6680603027344, "report/reward_neg_acc": 0.9868995547294617, "report/reward_neg_loss": 0.001830575754866004, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5600813627243042, "report/reward_pred": 1.5210185050964355, "report/reward_rate": 0.10546875, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.015972105786204338, "eval/cont_loss_std": 0.30217474699020386, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 3.7577037811279297, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.001298647141084075, "eval/cont_pred": 0.998001754283905, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.700911521911621, "eval/dyn_loss_std": 10.036812782287598, "eval/image_loss_mean": 1.379934549331665, "eval/image_loss_std": 1.916265845298767, "eval/model_loss_mean": 5.7009687423706055, "eval/model_loss_std": 7.5987138748168945, "eval/post_ent_mag": 65.48609924316406, "eval/post_ent_max": 65.48609924316406, "eval/post_ent_mean": 40.03720474243164, "eval/post_ent_min": 9.193115234375, "eval/post_ent_std": 5.942865371704102, "eval/prior_ent_mag": 85.30345916748047, "eval/prior_ent_max": 85.30345916748047, "eval/prior_ent_mean": 44.04267120361328, "eval/prior_ent_min": 11.002328872680664, "eval/prior_ent_std": 8.354676246643066, "eval/rep_loss_mean": 6.700911521911621, "eval/rep_loss_std": 10.036812782287598, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.28451502323150635, "eval/reward_loss_std": 1.6997288465499878, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 490.9971923828125, "eval/reward_neg_acc": 0.976897656917572, "eval/reward_neg_loss": 0.018198048695921898, "eval/reward_pos_acc": 0.834782600402832, "eval/reward_pos_loss": 2.3895769119262695, "eval/reward_pred": 1.4240652322769165, "eval/reward_rate": 0.1123046875, "replay/size": 345307.0, "replay/inserts": 1403.0, "replay/samples": 23440.0, "replay/insert_wait_avg": 5.0851301219067404e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.405794872765655e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.11806440353394, "timer/replay._sample_count": 23440.0, "timer/replay._sample_total": 357.68067955970764, "timer/replay._sample_frac": 1.2371440030826923, "timer/replay._sample_avg": 0.015259414656984114, "timer/replay._sample_min": 0.0007188320159912109, "timer/replay._sample_max": 0.03995800018310547, "timer/env.step_count": 1465.0, "timer/env.step_total": 6.674329996109009, "timer/env.step_frac": 0.02308513655097446, "timer/env.step_avg": 0.004555856652634136, "timer/env.step_min": 0.0024406909942626953, "timer/env.step_max": 0.0318906307220459, "timer/agent.policy_count": 1465.0, "timer/agent.policy_total": 104.56305146217346, "timer/agent.policy_frac": 0.361662117785316, "timer/agent.policy_avg": 0.07137409656121055, "timer/agent.policy_min": 0.002955198287963867, "timer/agent.policy_max": 0.08639669418334961, "timer/dataset_train_count": 1465.0, "timer/dataset_train_total": 0.14871430397033691, "timer/dataset_train_frac": 0.0005143722315557919, "timer/dataset_train_avg": 0.00010151147028691939, "timer/dataset_train_min": 5.793571472167969e-05, "timer/dataset_train_max": 0.00027680397033691406, "timer/agent.train_count": 1465.0, "timer/agent.train_total": 176.3954722881317, "timer/agent.train_frac": 0.6101157070625975, "timer/agent.train_avg": 0.12040646572568718, "timer/agent.train_min": 0.10698175430297852, "timer/agent.train_max": 0.21014738082885742, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25662970542907715, "timer/agent.report_frac": 0.0008876294394074545, "timer/agent.report_avg": 0.12831485271453857, "timer/agent.report_min": 0.09534287452697754, "timer/agent.report_max": 0.1612868309020996, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.1021575927734375e-05, "timer/dataset_eval_frac": 1.7647315131620924e-07, "timer/dataset_eval_avg": 5.1021575927734375e-05, "timer/dataset_eval_min": 5.1021575927734375e-05, "timer/dataset_eval_max": 5.1021575927734375e-05, "fps": 20.267505424090263}